2017-03-07 2 views
-1

私はマラヤーラムのニュース記事のトピックモデリングを行っています。トピックはユニコード形式で生成されます。出力は次のようになります。Python( u0d35形式)を使用してユニコードデータをマラヤラムに変換します

u'0.021*"\u0d2a\u0d3f" + 0.021*"\u0d35\u0d3f\u0d36\u0d4d\u0d35\u0d02\u0d2d\u0d30\u0d28\u0d4d\u0d31\u0d46" + 0.021*"\u0d05\u0d26\u0d4d\u0d26\u0d47\u0d39\u0d02"' 

これを読みやすい文字列に変換します。ファイル操作を含むたびに、出力ファイルに同じ文字列が表示されます。一顧もそのスクリーンショットイマイチIDのように読める(ファイル

答えて

0

0.021*"പി" + 0.021*"വിശ്വംഭരന്റെ" + 0.021*"അദ്ദേഹം" 

...私のために正常に動作しますがに印刷している端末がそれをサポートしていることを確認しているようだ。しかし、私のような結果が欲しいですあなたはおそらくエンコードする必要があり、それをファイルに書き込みたい場合は)それを enter image description here

をその罰金をクリックした場合、それがutf8に、まあ...期待し

with open("some_file","wb") as f: 
    f.write(u'0.021*"\u0d2a\u0d3f" + 0.021*"\u0d35\u0d3f\u0d36\u0d4d\u0d35\u0d02\u0d2d\u0d30\u0d28\u0d4d\u0d31\u0d46" + 0.021*"\u0d05\u0d26\u0d4d\u0d26\u0d47\u0d39\u0d02"'.encode("utf-8")) 
関連する問題