Spark on Hiveの進行状況バーが10％でスタック

最近、Spark 1.6にアップグレードし、HiveのデフォルトクエリエンジンとしてSparkQLを使用しようとしました。 HiveServer2とSpark On Yarn Serviceが有効な場合、Spark Gatewayの役割が同じマシンに追加されます。私は、次のようなクエリを実行するとただし：Spark on Hiveの進行状況バーが10％でスタック

SET hive.execution.engine=spark; 
INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GROUP BY country;

我々が見ジョブが糸によって受け入れられ、リソースが割り当てられ、ステータスが、それはしかし、実行されていると言う、それは10％の一定の進捗状況を示し、さらに、いずれかを行っていません色相または肌色のいずれかのUIで表示されます。 Spark UIのジョブが完了していることを確認しても、実際にHDFSの出力が表示されます。誰も似たような問題に遭遇しましたか？このような振る舞いをデバッグする手がかりはありますか？私はCloudera CDHを使用します。5.12

出典

2017-10-10 madbitloman

実行が既に終了しているようです。スパークとハイブのセッションはまだ開いています。スパークと他のタイプのデータを持つ糸の実行の進展はほとんど異なります。これは通常、spark-shellを使用しているときに進行状況が常に10％になるときに発生します。 Hiveがセッションごとにこのような接続を開くと、これはおそらく問題です。 Tezはそれとは少し違って動作します。 –

@ThiagoBaldimセッションを閉じる方法はありますか？回避策はありますか？ – madbitloman

回答が見つかりました。最近これを修正するためにpatch releasedがありました。バグと機能の間に浮い：ハイブのセッションが開始され、クエリがスパーク処理エンジンに提出された場合、セッションが終了するまで

、ハイブはクラスタ上で一つ以上のスパークエグゼキュータを維持します。スパーク処理エンジンの初期設定には時間がかかります。のクエリに新しいスパーク処理エンジンを作成する際のオーバーヘッドを避けるため、Hiveは各ハイブセッションごとにSparkアプリケーションマスタ（YARN Spark ドライバ）と1つ以上のSpark Executorsを維持します。しかしながら、のトレードオフは、の長い時間の間、アイドルフェーズにあるかもしれないが、SparkコンポーネントがYARNのリソースを消費することです。

これをパッチなしで修正するには、ハイブセッションを終了するか、クエリが完了したらMapReduce QLエンジンに戻す必要があります。色相を使用する場合、唯一の2番目のオプションがあります。

出典

2017-10-11 19:40:38 madbitloman

-1

私の過去の経験とちょうど分かち合っています。この記事をお読みください：

https://community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/Hive-on-Spark-tasks-never-finish/td-p/52565

はそれがお役に立てば幸いです。

出典

2017-10-10 23:18:15 skvyas

リンクありがとう！明日にそれを試みます。 – madbitloman

Spark on Hiveの進行状況バーが10％でスタック

答えて

関連する問題