2017-02-14 6 views

答えて

3

0xa0は、UTF-8で有効な非改行スペースである必要があります。

いいえ、そうではありません。これはLatin1とUnicode(またはUTF-16とUTF-32)文字セットの両方で有効です。

UTF-8エンコーディングでは、C2 A0とエンコードされています。一般に、0x80より小さい文字のみがUTF-8の1バイトにマップされます。

+0

ああ、ありがとう。だから、もし私が8バイトのテキストを0xa0のバイトがスペースであると考えられたら、それはおそらくLatin1のエンコードでしょうか? – CoderBrien

+0

U + 00A0から0xA0にマップするエンコードがいくつかあります。 Latin-1(その名前のISOとWindowsのエンコーディングのあいまいさが曖昧です)は確かではありませんが、確かではありません。 –

+0

@CoderBrien:おそらく、おそらく。または他の昔ながらの1バイトエンコーディング。 –