2011-08-05 1 views
2

同じキーで配布され、これらのキー列を結合条件で使用した表を結合すると、netezzaの各SPU(マシン)は100%独立して動作します(nz-interviewを参照)。理論上、ハイブに同列結合(a-la-netezza)が可能ですか?

ハイブにはbucketed map joinがありますが、テーブルを表すファイルのデータノードへの配布はHDFSの責任で、ハイブのCLUSTERED BYキーでは行われません!

同じキーでCLUSTEREDという2つのテーブルがあり、そのキーで結合すると仮定します - HDFSから、同じノードにマッチするバケットが存在することを保証できますか?または、常に小さなテーブルの一致するバケットを大きなテーブルのバケットを含むデータノードに移動する必要がありますか?

おかげで、IDO

(注:これは私の前の質問のより良い言い回しです:How does hive/hadoop assures that each mapper works on data that is local for it?

答えて

0

私はデータのブロックを格納するためにHDFSに伝えることはできないと思います。
小さなクラスタの場合、テーブルのレプリケーションファクタをクラスタ内のノードの数に近いか等しい数に増やすために、次のようなトリックを検討できます。
結果として、結合プロセス中に、適切なデータは、ほとんど常に(または常に)必要なノードに存在します。

関連する問題