ハイブのシーケンスファイル形式とパーケットファイル形式は何ですか？

シーケンスファイルと寄木細工ファイルの使用場所をリアルタイムで説明できますか？ハイブのシーケンスファイル形式とパーケットファイル形式は何ですか？

2016-09-22 priya

シーケンスファイル

シーケンスファイルは、CSVに類似した構造を持つバイナリ形式でデータを保存します。 CSVと同様に、シーケンスファイルはメタデータをデータとともに格納しないので、スキーマの進化オプションだけが新しいフィールドを追加します。ただし、CSVとは異なり、シーケンスファイルはブロック圧縮をサポートします。シーケンスファイルの読み込みの複雑さのため、MapReduceジョブのシーケンス内で使用される中間データストレージなどの「飛行中の」データにのみ使用されることがよくあります。

寄木ファイル

寄木ファイルは、Hadoopの作成者ダグ・カッティングのTrevniプロジェクトに由来さらに別の柱状のファイル形式です。 RCとORCのように、Parquetは圧縮とクエリのパフォーマンス上のメリットを享受していますが、一般に、非円柱ファイルフォーマットよりも書き込みが遅くなります。しかし、RCおよびORCファイルとは異なり、Parquet serdesはスキーマの進化を制限しています。 Parquetでは、構造の最後に新しい列を追加できます。現在、HiveとImpalaは新しく追加された列を照会できますが、Hadoop Pigなどのエコシステム内の他のツールも問題に直面する可能性があります。寄木張りはClouderaによってサポートされ、Cloudera Impalaに最適化されています。 Hadoopエコシステムの残りの部分では、ネイティブの寄木細工のサポートが急速に追加されています。

寄木張りファイルのハイブでのサポート...寄木張りの列名が小文字であることは非常に重要です。 Parquetファイルに大文字と小文字の混在した列名が含まれる場合、Hiveは列を読み取ることができず、NULL値を持つ列に対してクエリを返し、エラーを記録しません。 Hiveとは異なり、Impalaは大文字と小文字の混在した列名を処理します。あなたが遭遇したときの本当に難しい問題

出典

2016-09-23 10:39:42

ハイブのシーケンスファイル形式とパーケットファイル形式は何ですか？

答えて

関連する問題