2011-08-07 11 views
0

The Unicode Bookのような情報とWikipedia Articleの情報は、UnicodeがHTML & XMLのデフォルトの文字セットであることを示しています。UnicodeはHTMLとXMLのデフォルトの文字セットですか?

ファイル作成時に使用できる「レパートリ」のような「文字セット」という言葉は理解しています。これは、いくつかのエディタが、どのような種類のファイルが処理されるかにかかわらず、独自のデフォルト文字セットを設定することにつながります。 HTMLファイルを作成しようとしている場合でも、エディタの中にはUnicodeをデフォルトとして設定しないものがあります。上のUnicodeはHTMLとXMLのデフォルトの文字セットがあるか、エディタの依存している場合、ファイルを作成するために使用されることに疑問を残し

...

答えて

2

HTMLとの両方がUnicodeに関して許容される内容を定義しているため、Unicodeを「デフォルト」と呼ぶことができます。

ただし、ファイルを「Unicode」にすることはできません。Unicodeのエンコーディングが必要です。プロローグの指定が異なる場合を除き、デフォルトでは、XMLファイルはUTF-8またはUTF-16エンコーディングのいずれかである必要があります。 HTML仕様では、サポートされているエンコーディングは明示的に未定義のままであり、エンコーディングがトランスポートプロトコル(HTTPなど)によって処理されることを示しています。

+0

* HTMLとXMLの両方がUnicodeに関して** ** ** **コンテンツを定義しているので、あなたはUnicodeを "デフォルト"と呼ぶことができると思います。 – nEAnnam

+1

@nEAnnam:「 」や「💩」のようなものを言うときは、ASCIIを使用して特定のUnicode文字、NO-BREAK SPACEとPILE OF POOにそれぞれ対応するコードポイントを指定しています。数字は常にUnicodeコードポイントです。それはあなたが考えているものかもしれません。 – tchrist

+0

@tchrist良い点、私は問題がそのようになっていると思いました。ありがとうございました – nEAnnam

1

は、ドキュメントの編集者に依存し、それほどではありません編集者。エディタは、デフォルトとして、著者に最も適したエンコーディング(または著者に最も適していると思われるもの)を使用します。

基本的に、エンコードを指定しない場合、またはクライアントソフトウェアがサーバーが送信するヘッダーを認識しない場合は、デフォルトでユニコードにする必要があります。私はこれが義務的ではないと思います。それはまさに普通の行動になりました。

1

私が正しくあなたの質問を読んでいる場合、あなたはあなたが持っている

文字セットを宣言した

  • あなたは文字セット
  • を使用している文字セット間の区別をする必要がありますドキュメントを作成したときに実際に使用したのはエディタで設定したものです。今度は、ファイルの消費者が正しく読むことを確認する必要があります。つまり、使用した文字セットも宣言したものです。

    宣言を使用しない場合は、既述のように、XMLドキュメントの場合はUTF-8が使用されます。これはあなたのファイルを読み込むアプリケーションが想定するものです。エディターがUTF-8に設定されていることを確認するか、適切なXMLヘッダーを使用してください(例:

    <?xml version="1.0" encoding="ISO-8859-1"?> 
    

    HTMLドキュメントの場合、通常、デフォルトのエンコーディングはサーバー設定で設定されているため、確認してください。 UTF-8は最近、最も一般的な選択肢です。

1

HTMLドキュメント(抽象概念である)に表示される文字セットと、HTMLファイルの格納/転送に使用されるエンコードの文字を区別することが重要です。

後者のデフォルトは、OS /ブラウザ/ HTMLエディタの設定に依存します。Unicodeはエンコードではないため、Unicodeではなく、確かにです。 「UTF-8」でもかまいません。これはUnicodeの文字エンコーディングです。"UTF-16"(これらのエンコーディングはすべてのUnicode文字をエンコードできない "ISO-8859-1"とは異なります)。

全体として、HTMLファイルで宣言したのと同じエンコーディングにエディタを設定することが重要です。いくつかのエディタはこれを自動的に行いますが、多くはそうしません。

+0

私はあなたが何を言っているのか知っていますが、私はこの引用を例に挙げています:* HTML文書は、コンピュータストレージシステムやネットワークでのマニフェストとは無関係に、Unicode文字列です。エディタ – nEAnnam

+0

はい、エディタによって異なります。 XML/HTMLファイルのヘッダーに希望するエンコーディングを宣言している間に、エディタを間違ったエンコーディングに設定することが頻繁に発生します。次に、例えばファイルを表示するとき。ブラウザで文字が正しく表示されません。 –

関連する問題