2016-09-22 36 views

答えて

1

シーケンスファイル

シーケンスファイルは、CSVに類似した構造を持つバイナリ形式でデータを保存します。 CSVと同様に、シーケンスファイルはメタデータをデータとともに格納しないので、スキーマの進化オプションだけが新しいフィールドを追加します。ただし、CSVとは異なり、シーケンスファイルはブロック圧縮をサポートします。シーケンスファイルの読み込みの複雑さのため、MapReduceジョブのシーケンス内で使用される中間データストレージなどの「飛行中の」データにのみ使用されることがよくあります。

寄木ファイル

寄木ファイルは、Hadoopの作成者ダグ・カッティングのTrevniプロジェクトに由来さらに別の柱状のファイル形式です。 RCとORCのように、Parquetは圧縮とクエリのパフォーマンス上のメリットを享受していますが、一般に、非円柱ファイルフォーマットよりも書き込みが遅くなります。しかし、RCおよびORCファイルとは異なり、Parquet serdesはスキーマの進化を制限しています。 Parquetでは、構造の最後に新しい列を追加できます。現在、HiveとImpalaは新しく追加された列を照会できますが、Hadoop Pigなどのエコシステム内の他のツールも問題に直面する可能性があります。寄木張りはClouderaによってサポートされ、Cloudera Impalaに最適化されています。 Hadoopエコシステムの残りの部分では、ネイティブの寄木細工のサポートが急速に追加されています。

寄木張りファイルのハイブでのサポート...寄木張りの列名が小文字であることは非常に重要です。 Parquetファイルに大文字と小文字の混在した列名が含まれる場合、Hiveは列を読み取ることができず、NULL値を持つ列に対してクエリを返し、エラーを記録しません。 Hiveとは異なり、Impalaは大文字と小文字の混在した列名を処理します。あなたが遭遇したときの本当に難しい問題

関連する問題