2017-08-10 14 views
0

私は以下のシナリオを持っています。ディメンションテーブル。 PRODUCTはSQL Server 2016にロードされます。 ORDER_ITEMはHadoopにロードされます。 PRODUCTとORDER_ITEMの間で集計クエリを実行したいとします。ポリベースでプッシュダウン

SELECT 
PRODUCT.PRODUCT_CATEGORY, 
SUM(ORDER_ITEM.AMOUNT) 
FROM 
HADOOP.ORDER_ITEM OI 
JOIN RDBMS.PRODUCT P ON (OI.PRODUCT_ID = P.PRODUCT_ID) 
GROUP BY 
    PRODUCT.PRODUCT_CATEGORY 

どのような動作ですか。 Hadoopのが参加し、凝集を実行し、結果を返す に(1)ポリ塩基は、製品の寸法を放送してい(2)ポリ塩基は、SQL ServerにORDER_ITEMテーブルをブロードキャストし、そこに参加して凝集perfromsていますか?誰かがそれを試してみた場合

おそらく、(2)が、私は

答えて

1

ポリ塩基は決してかかわらず、データ量のSQL Serverからデータを移動していない知っているようです。統計によって、ポリ塩基のいずれかになります。バックSQL Serverへ

A)ストリームORDER_ITEMテーブルと結合し、データを集計を計算します。

B)OI.ProductiDによって部分集合Sum(Order_Item.Amount)グループをプッシュダウンし、結果セットをSQL Serverにストリーミングしてから、SQL Server内の結合および最終集計を実行します。

関連する問題