私のコード作成者は、UserVoiceサイトからコンテンツを取得します。ご存じのように、UserVoiceは、データを正しく扱うことができないたわごとのソフトウェアです。実際には、検索ページのテキストの量を減らすために、300文字のテキストを切り取り、最後に「...」を追加します。例えば、は、マルチバイト文字の途中で切ってもかまわないので、部分的にutf-8 "バイト"になります。 è
charの場合、\xc3\xa8s
の代わりに\xc3
が得られました。Python:JSON文字列を解析するときに破損したUnicodeバイトを処理します。
もちろん、この恐ろしいスープをjson.loads
に与えると、それはUnicodeDecodeError
で失敗します。だから私の質問は簡単です:どうすればこれらの不良バイトを無視するようにjson.loads
を質問することができます、私は.decode('utf-8', 'ignore')
機能の内部にアクセスしていた場合は使用しますか?
ありがとうございました。
を[OK]を、私は現在、私は単にjson.loads' 'に渡す前に、文字列を復号してもよいと言って答えを書いていました。ありがとう、それは明らかに動作します! – zopieux