ハイブシェルに奇妙な問題があります。 Apacheのオリジナルパッケージを使ってHadoopシステムを作成しました。私はtezを使用します。ハイブは関数と一緒に使用すると値を返しません
システムをテストするために、NYのタクシーデータを問題なくハイブにロードしました。データセットには約1100万本の回線があります。私がハイブシェルのステムを選択すると、それは動作しています。私はこの
select count(*) from yellow;
または
select sum(trip_distance) from yellow where trip_distance is not null;
のような機能を使用する場合、プロセスは問題なく通るだけでOKを返すこと。私がspark-sqlで同じことをしたら、私は答えを得ます。また、文ごとにグループ化すると、結果は同じになります。
テーブル定義これはORC形式である
CREATE TABLE `default.yellow` (`VendorID` int , `tpep_pickup_datetime` timestamp , `tpep_dropoff_datetime` timestamp , `passenger_count` bigint , `trip_distance` float , `pickup_longitude` float , `pickup_latitude` float , `RatecodeID` bigint , `store_and_fwd_flag` string , `dropoff_longitude` float , `dropoff_latitude` float , `payment_type` bigint , `fare_amount` int , `extra` float , `mta_tax` float , `tip_amount` int , `tolls_amount` bigint , `improvement_surcharge` float , `total_amount` float) COMMENT "yellow" stored as ORC
あります。私はまた、寄木張りを使用しましたが、結果に違いはありません。
また、他の表でも、行を数えるとOKの結果しか表示されませんでした。
ここにいくつかのサンプルラインがあります。これは、私がテストに使用した無料のNYタクシーデータです。
2,2016-06-09 21:06:36.0,2016-06-09 21:13:08.0,2,0.79,-73.98336,40.760937,1,N,-73.97746,40.75398,2,6,0.5,0.5,0,0,0.3,7.3
2,2016-06-09 21:06:36.0,2016-06-09 21:35:11.0,1,5.22,-73.98172,40.736668,1,N,-73.981636,40.670242,1,22,0.5,0.5,4,0,0.3,27.3
2,2016-06-09 21:06:36.0,2016-06-09 21:13:10.0,1,1.26,-73.994316,40.751072,1,N,-74.004234,40.74217,1,6,0.5,0.5,1,0,0.3,9.36
2,2016-06-09 21:06:36.0,2016-06-09 21:36:10.0,1,7.39,-73.98236,40.77389,1,N,-73.92947,40.85154,1,26,0.5,0.5,1,0,0.3,28.3
テーブル定義といくつかのサンプル行を入力してください –
mapreduceスタックトレースをチェックすると、より多くの洞察を得ることができます。 –
問題を再現できませんでした。私はハイブにNYタクシーのデータをロードしましたか?あなたは 'select * from yellow limit 10'のために何を得ますか? –