エンコードされた文字列に使用されるエンコーディングのタイプを知ることができるのだろうか?少なくとも、特定のエンティティまたは単語がpython3.xの文字列かバイトであるかを調べる。 ありがとうございます。エンコードのタイプを見つける
0
A
答えて
3
chardetは、それがどのエンコードであるかを推測させます。しかし、これは短いテキストでは信頼性が高くありませんが、長いテキストではうまくいきます。
8
chardet
ライブラリをお勧めします。それはsome work from Mozillaに基づいており、あなたの必要性を満たすと思われます。
>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}
そして、そこだけでなく、そのページに覆われている、より複雑なユースケースがありますが、コアであなたは、単に文字列を渡すと、それは潜在的なエンコーディングのセットを返すことができますその推測に彼らの信頼と一緒に。
isinstance(x, bytes)
対
isinstance(x, str)
をあなたはダニエルが彼の答えの使用に言ったように、それは、あなたができるバイト、であると判断したら:それは文字列だか、バイトは簡単ですかどうかを確認するには
関連する問題
- 1. オブジェクトグラフ内の特定のタイプのオブジェクトを見つける
- 2. アンドロイド:タイプ別のビューをどのように見つけるか
- 3. PHPでリモート/外部ファイルのMIMEタイプを見つける
- 4. を見つける
- 5. 新しいタイプのファイルを見つけるためにスクリプトを更新する
- 6. 変数を反復して特定のタイプのインスタンスを見つける方法
- 7. ファイルの内容からMIMEタイプを見つけるためのJavaライブラリ
- 8. すべての親タイプを見つける(基本クラスとインターフェースの両方)
- 9. hpricot:タイプBまたはCの祖先を持たないタイプAの要素を見つける
- 10. テンプレートコントロールの親をタイプ(!)(wpf)で見つけることができません
- 11. 「見つける-ls」
- 12. ビデオカードを見つける
- 13. エルヴィスを見つける?:
- 14. UIImageファイルタイプを見つける
- 15. デザインパターンを見つける
- 16. Apacheディレクトリを見つける
- 17. linux:ポストグルアイドルプロセスオリジネーターを見つける
- 18. メインコンテンツを見つけるヒューリスティックアプローチ
- 19. マゼンタレイアウトファイルを見つける
- 20. ハドソンログファイルを見つける
- 21. シーケンスを見つけると
- 22. CUDA_SDK_ROOT_DIRを見つける
- 23. Neo4j:1つのタグだけの関係を見つける
- 24. スナップショットビューのファイルのローカルコピーを見つける
- 25. Androidのストレージのパスを見つける
- 26. 見つける一致が
- 27. Strutsのバージョンを見つけるには?
- 28. .NET内のページアドレスを見つける
- 29. 円内の座標を見つける
- 30. 配列のパターンを見つけるヒント
このテストが動作するようになって、私は次のように動作しないことを示していると考えているかわからない: >>>タイプ(x)の >>>でisinstance(X、バイト) 真 >> > isinstance(x、str) True –
kasterma
@kasterma:これは、Python 2ではstrとbytesが同じ型であるからです。これはPython 3では当てはまりません。 –