Pythonの文字列から奇妙な文字を削除します

Webから取り出されたいくつかのWebデータを解析する必要があります。ウェブコンテンツが異なる地域の言語になる可能性は非常に高いですが、私は何の問題も処理しません。？？8ïôóg/ ^ÿûêþIA＃のï¼ºy{|しかしPythonの文字列から奇妙な文字を削除します

私は 8qîÚ4½-ôMºÝCQ'DÉ¬）Q + R±}Ûýï7üÛ²ëlY& 53をwokringていますように、いくつかの文字列に登場するいくつかの無効な文字があります5+B^ß¿ß~¾¿½|ÓûÆk.c¹~WÚ@ë¤KÈh4rF-G|!¹ÿ¬|a~μuÓñμ_»| THI 毎日statstistics
私は、このような奇妙な文字を削除する必要が

onylは有効な文字列を抽出します。私はPythonを使用しています。私はutf-8で各文字列をエンコードしています。

出典

2017-02-21 Shafiq

これらはおそらく奇妙な文字ではありません。あなたは単に間違ったエンコーディングを使用します... –

"有効な文字列"をどのように定義しますか？ –

@ juanpa.arrivillagaまたは "奇妙な"文字ですか？ :) – DeepSpace

あなたは奇妙なことではない-ASCIIを意味する場合は、試みることができる：

sがあなたの文字列である

import string 
"".join(filter(lambda char: char in string.printable, s))

。フィルタリングできる文字列定数は次のとおりです。 https://docs.python.org/3/library/string.html

出典

2017-02-21 10:24:36 rolika

Pythonの文字列から奇妙な文字を削除します

答えて

関連する問題