私は小さなファイル(2MB)を持っています。私はこのファイルの上に外部のハイブテーブルを作成しました(テキストファイルとして保存されています)。別のテーブル(ORCとして保存されている)を作成し、前のテーブルのデータをコピーしました。 ORCテーブルのデータサイズを確認したところ、2MB以上でした。
ORCは圧縮されたファイル形式なので、データサイズはそれ以下であるべきですか?異なるファイル形式のハイブのファイルサイズ
0
A
答えて
1
ソースファイルが小さすぎるからです。 ORCは、内部インデックス、ヘッダー、フッター、ポストスクリプト、圧縮コーデックもいくつかの構造体などを追加する複雑な構造を持っています。 これらのすべてのサポート構造体は、データよりも多くの領域を消費します。このような小さなファイルの場合、ファイルがメモリに収まるので、列の最小値/最大値を格納する必要はありません。また、ブラムフィルタなどは必要ありません。この場合に最適なストレージは、圧縮されていないテキストファイルです。また、ソースファイルをgzipしてサイズを確認することもできます。小さすぎるgzipファイルは、圧縮されていないファイルよりも大きくなることがあります。ファイルが大きければ大きいほど、orcの圧縮と使用のメリットが大きくなります。
1
Hive 0.14では、ユーザーはテーブルまたはパーティションでCONCATENATEコマンドを発行することにより、小さなORCファイルの効率的なマージを要求できます。ファイルは再シリアライズせずにストライプレベルでマージされます。
ALTER TABLE istari [PARTITION partition_spec] CONCATENATE;
関連する問題
- 1. 異なるExcelファイル形式の特定
- 2. Strategyパターンは、異なるファイル形式
- 3. 異なる形式のレンダリングアクション
- 4. ハイブのシーケンスファイル形式とパーケットファイル形式は何ですか?
- 5. sasからハイブへのProc形式
- 6. カスタムファイル形式を使用してハイブ内のxmlファイルを読む
- 7. レールのバリデーションメソッドの異なる形式
- 8. LINQの二つの異なる形式
- 9. 形式の異なるファイルを読み込む方法は?
- 10. SL3形式の異なるデータコンテキスト
- 11. ソースXMLの異なる日付形式
- 12. 異なるファイル形式を保存する
- 13. xlsx形式の異なる言語のExcel式の名前
- 14. JPEG2000のファイル形式は異なりますか?
- 15. クエリーストリングの形式が異なります
- 16. 無音でファイルサイズに影響しないオーディオ形式
- 17. ハイブで日付形式を変更できない
- 18. マイクロソフトのファイル形式
- 19. 奇妙な形式のファイルの解析
- 20. ハイブでタイムスタンプをgmt形式に変換するには
- 21. ハイブで日付形式を変更するには?
- 22. 同じファイル、同じファイルサイズだが2つの異なるメモリサイズ、なぜですか?
- 23. Android - 番号の異なる形式の連絡先を検索
- 24. htmlの形式が異なる日付の相違
- 25. 異なる証明書の種類、暗号化の形式
- 26. Pythonは異なる形式での保存配列をnumpyの
- 27. hprofファイル形式
- 28. Multidexファイル形式
- 29. ファイル形式テスト
- 30. .Netファイル形式?
誰でもこの質問に回答できますか –