1000列を持つハイブテーブルを与える:1000列のHiveテーブルからgroupby 2属性を実行することをお勧めしますか?
col1, col2, ..., col1000
ソーステーブルは、数十億行が含まれており、サイズは1PBについてです。私は3列を照会する必要が
、
select col1, col2, sum(col3) as col3
from myTable
group by
col1, col2
我々がはるかに小さいファイルがGROUPBYし、送信があるように、最初のサブクエリを行い、その後でグループの集合に送信されることをお勧めします? Hiveが自動的にこれを処理するかどうかはわかりません。舞台裏
select col1, col2, sum(col3) as col3
from
(select col1, col2, col3
from myTable
) a
group by
col1, col2