同じキーで配布され、これらのキー列を結合条件で使用した表を結合すると、netezzaの各SPU(マシン)は100%独立して動作します(nz-interviewを参照)。理論上、ハイブに同列結合(a-la-netezza)が可能ですか?
ハイブにはbucketed map joinがありますが、テーブルを表すファイルのデータノードへの配布はHDFSの責任で、ハイブのCLUSTERED BYキーでは行われません!
同じキーでCLUSTEREDという2つのテーブルがあり、そのキーで結合すると仮定します - HDFSから、同じノードにマッチするバケットが存在することを保証できますか?または、常に小さなテーブルの一致するバケットを大きなテーブルのバケットを含むデータノードに移動する必要がありますか?
おかげで、IDO
(注:これは私の前の質問のより良い言い回しです:How does hive/hadoop assures that each mapper works on data that is local for it?)