理論上、ハイブに同列結合（a-la-netezza）が可能ですか？

同じキーで配布され、これらのキー列を結合条件で使用した表を結合すると、netezzaの各SPU（マシン）は100％独立して動作します（nz-interviewを参照）。理論上、ハイブに同列結合（a-la-netezza）が可能ですか？

ハイブにはbucketed map joinがありますが、テーブルを表すファイルのデータノードへの配布はHDFSの責任で、ハイブのCLUSTERED BYキーでは行われません！

同じキーでCLUSTEREDという2つのテーブルがあり、そのキーで結合すると仮定します - HDFSから、同じノードにマッチするバケットが存在することを保証できますか？または、常に小さなテーブルの一致するバケットを大きなテーブルのバケットを含むデータノードに移動する必要がありますか？

おかげで、IDO

（注：これは私の前の質問のより良い言い回しです：How does hive/hadoop assures that each mapper works on data that is local for it?）

出典

2011-08-05 ihadanny

私はデータのブロックを格納するためにHDFSに伝えることはできないと思います。
小さなクラスタの場合、テーブルのレプリケーションファクタをクラスタ内のノードの数に近いか等しい数に増やすために、次のようなトリックを検討できます。
結果として、結合プロセス中に、適切なデータは、ほとんど常に（または常に）必要なノードに存在します。

出典

2011-08-05 08:36:22

理論上、ハイブに同列結合（a-la-netezza）が可能ですか？

答えて

関連する問題