JavaでUTF-8文字列の一部をデコードしようとしています。 これらの文字列には、CC 88(合成ジアレシス)など、いくつかの結合ユニコード文字が含まれています。 文字列はOKであるようです。http://www.fileformat.info/info/unicode/char/0308/index.htmJava UTF-8の異常な動作
ただし、文字列への変換後の出力は無効です。
byte[] utf8 = { 105, -52, -120 };
System.out.print("{{");
for(int i = 0; i < utf8.length; ++i)
{
int value = utf8[i] & 0xFF;
System.out.print(Integer.toHexString(value));
}
System.out.println("}}");
System.out.println(">" + new String(utf8, "UTF-8"));
出力:
{{69cc88}} >i?
+1:端末(gnome-terminal)のUbuntu 9.04では、おそらくそれを期待して出力にiがあります。 –
私はこの単語「分音符」が好きです。私は会話でもっと頻繁に使用しなければならないかもしれません。 – skaffman
:) 「ウムラウト」も試してみてください。あなたは夕方の男になるでしょう。 –