2017-12-29 27 views
0

Power Ge'ezにエチオピア語のフォントで書かれたexcel(csv)ファイルがありますが、ファイルを読むときにフォントを認識できず、疑問符を付けます。これらのフォントの使い方は分かりませんが、ユニコード文字を使うことができます。しかし、私はPython 3.6でそれらを使用する/読む方法を知らないのですか?私はあなたの助けに感謝します。python3にEthiopicフォントを追加するには?

pandas dataframeの列名をEthiopicフォントで追加することはできますが、その結果はすべての結果のデータフレーム出力に対してNaNです。

+0

どのようにExcelファイルを読み込みますか?疑問符はどこに正確に表示されますか?それ以上のことが分からなければ、Pythonで問題が起こっていることさえ知ることさえできません。あなたの端末。 – nnnmmm

+0

疑問符は、ethiopic文字を含む「名前」フィールドを持つ1つの列のすべてのテキストと同様に、列名にあります。私もその質問を編集しました。どうやら、pandasはフィールド名を出力しますが、すべての数値データとテキストデータに対してNaNを返します。 – Kaleab

+0

excel(csv)ファイルを 'raw_data = 'hidar_2010.csv''として読んでいます – Kaleab

答えて

1

詳細情報が役立ちます。 しかし、私はそれらの文字をPythonでどのように使うかを教えてくれます。 このメソッドは、すべてのUnicode文字に対して機能するはずです。

短い回答: テキストに挿入する文字のUnicodeコードを識別します。 あなたはthis siteを見ることができます(エチオピアサブセットはすでに見つかりました)。

各文字に2つのコード(UnicodeとHTML)がありますが、明らかにUnicode(U + ...)が必要です たとえば、sillable 'ha'のコードはU + 1200です。 Pythonでそれらを参照する必要があります: '\ u1200'(見ることができるように '+'記号はありません)。

例。テキストファイル(UTF-8にしたい)のエンコーディングにも注意することが重要です。これは私が同じ文字のためにやったことです:

x = '\u1200' 

with open ('text.txt', encoding='utf-8', mode='w') as text_file: 
    text_file.write(x) 

わからないあなたは常にエンコーディングを指定する必要がある場合、私は安全側にすることにしました!

P.S.

'The Ethiopic sillable Ha: \u1200' 

・ホープ、このことができます:あなたのような長い文字列でもユニコードcaractersを参照するこの方法を使用することができます言及する価値!

+0

どのようにして¥1200から137Fまでの文字を含めるのですか? – Kaleab

+0

@Kaleab U + 1200とU + 137Fの間にあるすべての文字を意味するならば、それぞれの文字に特定のコードを使用する必要があるのではないかと心配しています。あなたはha = '\ u1200'のような割り当てを使ってスクリプト内に一種のマップを構築し、コード内で変数の名前を使うことができます。私はIPAシンボルを使う必要があるプロジェクトでそれを行いました。残念なことに、それほど一般的ではないキャラクタ(ラテン文字以外のキャラクタの場合もそうです)では、キャラクタ管理はすぐにかなりの労力を要します。 – Alessandro

関連する問題