私は混在したファイルエンコーディング(残念なことにAzureブロブストレージで)を持つhdfs上に100GBのファイルをたくさん持っています。どのようにして各ファイルのファイルエンコーディングを決定できますか?いくつかのdfsコマンドラインコマンドが理想的です。ありがとう。hdfs(Azure blob storage)上のファイルのファイルエンコーディングを調べる方法は?
0
A
答えて
1
ブロブストレージ内の各ファイルの先頭をローカルバッファに配管し、file
unixユーティリティを適用することで、必要な結果が得られました。ここでは、コマンドは、個々のファイルに対して次のようになります。
hdfs dfs -cat wasb://[email protected]/path/to/file | head -n 10 > buffer; file -i buffer
これはあなたのような何かを取得:
buffer: text/plain; charset=us-ascii
0
あなたはhttps://azure.microsoft.com/en-us/documentation/articles/xplat-cli-install/
コマンドazure storage blob list
を試すことができますし、azure storage blob show
はcontentTypeの、ん。ContentLength、メタデータを含むすべての利用可能なブロブのプロパティを返します。
この情報にファイルエンコーディングが含まれていない場合、私はファイルごとにのように独自のmetadata
を定義/設定する必要があると思います。その後、CLIツールを使用してそれを取得することができます。
関連する問題
- 1. Azure Blob Storageのdefault.htmlページのアップロード/セットアップ方法は?
- 2. How to support other languages in Azure blob storage?
- 3. Pythonでドライブ上のファイル数を調べる方法は?
- 4. Azure Storage API ContentDisposition
- 5. MVC3でAzure Blobファイルをダウンロード
- 6. Azureチュートリアル - ローカルBLOBストレージの使用方法
- 7. ローカルストレージからAzure BLOBストレージにすべてのファイルをアップロード
- 8. Azure Blobストレージのトランザクションアクセス
- 9. Azure BLOBのダウンロードを検出またはカウントする方法は?
- 10. SilverlightのAzure Blobストレージブラウザ
- 11. Azure Storageの承認ヘッダを取得する方法コンテナプロパティREST API
- 12. TableServiceEntityによるAzure Table Storageへのバイナリの保存方法
- 13. ファイルをAzure Blobストレージからダウンロードする
- 14. Azure Storage Blob:GetBlobReference()でどのようなBLOBを取得できますか?
- 15. JClouds for Azure Blob
- 16. grepと一致するファイルのパターンを調べる方法は?
- 17. Azureアプリ(BLOBストレージ)はローカルホスト上でのみ実行する
- 18. Windows Azure上で動作するWCFサービスでファイルを返す方法は?
- 19. Azure BLOBストレージにVHDを並列でアップロードする方法は?
- 20. Silverlight clientaccesspolicy.xmlとAzure dev storage
- 21. gzippedファイルのContent-Lengthを調べる方法は?
- 22. ファイル内のバイト数を調べる方法は?
- 23. Azure BlobストレージBLOBを表示する
- 24. Azure BLOBストレージのあるCNAME
- 25. Azure(.Net)でcsvファイル(既にBLOBストレージにアップロード済み)をインポートする方法
- 26. HTTP REST要求は、Azure Storageにアクセスする唯一の方法ですか?
- 27. hdfsコマンドでファイル内の行を数える方法は?
- 28. Azure - BLOBストレージ内の既存のxmlファイルを更新する
- 29. Azure File Storageフォルダ内のすべてのファイルを削除するにはどうすればよいですか?
- 30. Azure blobストレージのアップロードのパフォーマンス
ファイルをアップロードするときは、「コンテンツ・エンコード」に設定しましたか?はいの場合は、ブロブのプロパティから取得できます。いいえの場合は、blobの一部をバイナリとして取得し、エンコード検出プログラムを使用してblobのエンコーディングを推測します。以下は、エンコーディングを検出するためのpythonパッケージです:[chardet](https://pypi.python.org/pypi/chardet) –