2011-08-07 19 views
2

私はさまざまなウェブサイトからウェブページをクロールしており、さまざまなエンコードがあります。私が取得エンコーディングのサンプルがある -任意のエンコーディングをPythonのutf8に変換しますか?

  • Big5の
  • TIS-620
  • UTF-16LE
  • SHIFT_JIS
  • EUC-JP
  • MacCyrillic
  • KOI8-R

より一般的なエンコーディングとは異なります。上記のエンコーディングを使用してデコードすることで、Webページのユニコードソースを取得できます。

私の質問はこれです:私はutf8としてすべてのファイルを保存したいと思います。 utf8を使用してユニコードソースをエンコードすると、すべてのWebページで使用できますか? utf8はすべてのユニコードコードポイントをサポートしていますか?

+0

名前の「UTF」部分は、Unicode変換形式を表します。「UTF -...」のいずれのエンコーディングも、実際にすべてのUnicode文字を格納できます。 – bobince

答えて

1

短くて甘いとは言えません。はい!

4

はい、UTF-8は、より小さな整数がより少ないバイトを取るように、整数をバイト単位で格納する方法に過ぎません。その結果、128未満の値が1バイトに格納され、ASCIIはASCIIのままです。 UTF-8はすべてのUnicodeコードポイントを表すことができます。

関連する問題