2017-02-28 7 views
0

ハイブシェルに奇妙な問題があります。 Apacheのオリジナルパッケージを使ってHadoopシステムを作成しました。私はtezを使用します。ハイブは関数と一緒に使用すると値を返しません

システムをテストするために、NYのタクシーデータを問題なくハイブにロードしました。データセットには約1100万本の回線があります。私がハイブシェルのステムを選択すると、それは動作しています。私はこの

select count(*) from yellow; 

または

select sum(trip_distance) from yellow where trip_distance is not null; 

のような機能を使用する場合、プロセスは問題なく通るだけでOKを返すこと。私がspark-sqlで同じことをしたら、私は答えを得ます。また、文ごとにグループ化すると、結果は同じになります。

テーブル定義これはORC形式である

CREATE TABLE `default.yellow` (`VendorID` int , `tpep_pickup_datetime` timestamp , `tpep_dropoff_datetime` timestamp , `passenger_count` bigint , `trip_distance` float , `pickup_longitude` float , `pickup_latitude` float , `RatecodeID` bigint , `store_and_fwd_flag` string , `dropoff_longitude` float , `dropoff_latitude` float , `payment_type` bigint , `fare_amount` int , `extra` float , `mta_tax` float , `tip_amount` int , `tolls_amount` bigint , `improvement_surcharge` float , `total_amount` float) COMMENT "yellow" stored as ORC 

あります。私はまた、寄木張りを使用しましたが、結果に違いはありません。

また、他の表でも、行を数えるとOKの結果しか表示されませんでした。

ここにいくつかのサンプルラインがあります。これは、私がテストに使用した無料のNYタクシーデータです。

2,2016-06-09 21:06:36.0,2016-06-09 21:13:08.0,2,0.79,-73.98336,40.760937,1,N,-73.97746,40.75398,2,6,0.5,0.5,0,0,0.3,7.3 
2,2016-06-09 21:06:36.0,2016-06-09 21:35:11.0,1,5.22,-73.98172,40.736668,1,N,-73.981636,40.670242,1,22,0.5,0.5,4,0,0.3,27.3 
2,2016-06-09 21:06:36.0,2016-06-09 21:13:10.0,1,1.26,-73.994316,40.751072,1,N,-74.004234,40.74217,1,6,0.5,0.5,1,0,0.3,9.36 
2,2016-06-09 21:06:36.0,2016-06-09 21:36:10.0,1,7.39,-73.98236,40.77389,1,N,-73.92947,40.85154,1,26,0.5,0.5,1,0,0.3,28.3 
+0

テーブル定義といくつかのサンプル行を入力してください –

+0

mapreduceスタックトレースをチェックすると、より多くの洞察を得ることができます。 –

+0

問題を再現できませんでした。私はハイブにNYタクシーのデータをロードしましたか?あなたは 'select * from yellow limit 10'のために何を得ますか? –

答えて

0

ここに解決策があります。 Hiveとtezのログにも全く問題はありませんでした。また、tezによって与えられた行の数も正しい。

唯一の可能性のある問題は、ハイブとテズの間の通信にある可能性があります。また、mapred-site.xmlには何らかの未知の理由があるため、開始時に設定されていたため価値がありませんでした。私はそれを正しい値の糸に戻した後、それは働いた。

関連する問題