"\ xaf"、 "\ xbe"などの文字を含むテキストがあります。これは、this questionからわかるように、ASCIIでエンコードされた文字です。 xXYでエンコードされた文字をPythonでUTF-8に変換するには?
PythonでそれらをUTF-8に変換したいと考えています。通常string.encode("utf-8")
はUnicodeDecodeError
を投げる。たとえば、codecs
標準ライブラリのほうが良い方法がありますか?
サンプル200 characters here。
あなたのサンプルでは、任意の '\のxaf'が含まれていませんかそのような。あなたはそのような文字を持つサンプルを持っていますか? – dkarp
サンプルデータ*は*有効なUTF-8です。 "レコードセパレータ"と "ユニットセパレータ"の制御文字。 – dan04
'enca'(http://linux.die.net/man/1/enca)によると、UTF-8は"非テキストデータに囲まれた/混在しています "。 –