Sparkアプリケーションでステートメントのシーケンスを段階的に実行する方法を教えてください。

AttributeErrorまたは他の実行時例外を投げる前に30分実行するpyspark.sqlのApache Sparkデータロードおよび変換アプリケーションがあります。Sparkアプリケーションでステートメントのシーケンスを段階的に実行する方法を教えてください。

Apache PigのILLUSTRATEのような小さなデータサンプルを使用してアプリケーションをエンドツーエンドでテストしたいと考えています。データをサンプリングすることはあまり役に立ちません。これを行う簡単な方法はありますか？

出典

2016-10-14 Wesam

あなたの仕事のスパークUIに移動してください。DAG Visualizationがあります。それはあなたの仕事を表すグラフです
サンプルを使ってあなたの仕事をテストするには、最初に入力としてサンプルを使用します;）また、クラスタ上ではなくローカルでスパークを実行してから、IDE（IDEA ）

さらに詳しい情報：

出典

2016-10-14 12:05:23

SparkListenerで簡単に処理できるアイデアのようです。これにより、SparkアプリケーションのWeb UIに表示できる低レベルの詳細すべてにアクセスできます。ドライバ（つまり、DAGSchedulerとTaskSchedulerとSchedulerBackend）とエグゼキュータの間で飛行しているすべてのイベントは、登録されたSparkListenersにもポストされます。

スパークリスナーはSparkListener開発者向けAPIの実装です（つまり、すべてのコールバックメソッドはノーオペレーションですSparkListenerInterfaceの拡張である/何もしません）。

スパークは、Web UI、イベントの永続性（Spark History Server）、エグゼキュータおよびその他のサービスの動的割り当てにSparkリスナーを使用します。

カスタムSparkリスナーを開発し、SparkContext.addSparkListenerメソッドまたはspark.extraListeners設定を使用して登録することができます。

出典

2016-10-15 13:50:20

Sparkアプリケーションでステートメントのシーケンスを段階的に実行する方法を教えてください。

答えて

関連する問題