2016-04-13 10 views
0

私のデータベースには、キリル文字の一部がこのように表示されるという問題があります。"болно Ð±Ð°Ñ Ð°Ð¼ÑŒÐ´Ñ€ÑƒÑƒÐ»Ð¶ ч Ð"これを人間が読める形式に戻す方法がありますか?"болно"をキリル文字に変換する

私はこれの実際の文脈を読む必要があります。

+1

これを取得するためにどのようなコードが使用されましたか?誤ってデコードされたモジバイクではなく生のバイトデータをポストする。 –

答えて

2

あなたのデータから最高のものを選ぶことができます...キリル文字に見えますが、Google翻訳では何もしませんでした。それはデフォルトのUS Windowsコーデックの下でデコードされたようですが、本当にUTF-8でしたが、データが正しくありません。私はPythonを使って修正しようとしています:

>>> s.encode('cp1252').decode('utf8',errors='replace') 
'болно ба� амьдруулж ч �' 
+1

Windows-1252では、次のバイトは文字に対応しません:h81、h8D、h8F、h90およびh9D。先頭のhD1バイトがUTF-8( 'Ñ')の場合、それぞれ小さなキリル文字с、э、я、ѐ、correspondに対応します。先頭のhD0( 'Ð')では、代わりに大文字のЁ、Ѝ、Џ、АおよびНとなります。 OPは正確なバイト文字列を提供していないため、不正なバイトが単に破棄されたため、これらは置換文字「 」として表示されるキリル文字です。これがロシア語であれば、壊れた言葉はおそらく腐敗していた可能性があります。 – Crissov

関連する問題