だから、私はこの奇妙な問題は、 'æ'、 'ø'と 'å'をPythonで使用しています。Pythonのスカンジナビア語の文字(æøå)2.7
私が含まれています:# - - コーディング:ので、すべてのファイルの先頭に
、およびæøåプリント罰金が心配 - UTF-8からを。しかし、もし私がlen('æ')
をすれば、私は2を得る。私はループしてデンマークのテキストを分析するプログラムを作っているので、これは大きな問題である。私はislowerはの問題(周りを取得することができます
In [1]: 'a'.islower()
Out[1]: True
In [2]: 'æ'.islower()
Out[2]: False
In [3]: len('a')
Out[3]: 1
In [4]: len('æ')
Out[4]: 2
In [5]: for c in 'æ': print c in "æøå"
True
True
In [6]: print "æøå are troublesome characters"
æøå are troublesome characters
)とisupper()は「æ」、「O」と「A」のために働いていない:以下 は、問題を説明するためのpython端子からのいくつかの例であります単にc.islower() or c in "æøå"
を実行して、cが小文字であるかどうかを確認しますが、上記のように 'æ'の両方の部分は小文字としてカウントされ、二重にカウントされます。
これらの文字を他の文字と同じように動作させる方法はありますか?
私はsklearnとnumpyを取得する簡単な方法としてcanopyを使用してWindows 10でPython 2.7を実行します。
感謝を確保するために、この機能を使用することができますUnicode文字列を使用することを確認します。すべてがちょうど英語であれば、迷惑をかけることはもっと簡単になります:) – Gnurgen