2017-02-21 7 views
0

Webから取り出されたいくつかのWebデータを解析する必要があります。ウェブコンテンツが異なる地域の言語になる可能性は非常に高いですが、私は何の問題も処理しません。 ??8ïôóg/ ^ÿûêþIA#のZy{|しかしPythonの文字列から奇妙な文字を削除します

私は 8qîÚ4½-ôMºÝCQ'Dɬ)Q + R±}Ûýï7üÛ²ëlY& 53をwokringていますように、いくつかの文字列に登場するいくつかの無効な文字があります5+B^ß¿ß~¾¿½|ÓûÆk.c¹~WÚ@ë¤KÈh4rF-G|!¹ÿ¬|a~μuÓñμ_»| THI 毎日statstistics

私は、このような奇妙な文字を削除する必要が

onylは有効な文字列を抽出します。私はPythonを使用しています。私はutf-8で各文字列をエンコードしています。

+7

これらはおそらく奇妙な文字ではありません。あなたは単に間違ったエンコーディングを使用します... –

+2

"有効な文字列"をどのように定義しますか? –

+0

@ juanpa.arrivillagaまたは "奇妙な"文字ですか? :) – DeepSpace

答えて

1

あなたは奇妙なことではない-ASCIIを意味する場合は、試みることができる:

sがあなたの文字列である
import string 
"".join(filter(lambda char: char in string.printable, s)) 

。 フィルタリングできる文字列定数は次のとおりです。 https://docs.python.org/3/library/string.html

関連する問題