2016-10-14 4 views
2

AttributeErrorまたは他の実行時例外を投げる前に30分実行するpyspark.sqlのApache Sparkデータロードおよび変換アプリケーションがあります。Sparkアプリケーションでステートメントのシーケンスを段階的に実行する方法を教えてください。

Apache PigのILLUSTRATEのような小さなデータサンプルを使用してアプリケーションをエンドツーエンドでテストしたいと考えています。データをサンプリングすることはあまり役に立ちません。これを行う簡単な方法はありますか?

答えて

2
  • あなたの仕事のスパークUIに移動してください。DAG Visualizationがあります。それはあなたの仕事を表すグラフです
  • サンプルを使ってあなたの仕事をテストするには、最初に入力としてサンプルを使用します;)また、クラスタ上ではなくローカルでスパークを実行してから、IDE(IDEA )

さらに詳しい情報:

2

SparkListenerで簡単に処理できるアイデアのようです。これにより、SparkアプリケーションのWeb UIに表示できる低レベルの詳細すべてにアクセスできます。ドライバ(つまり、DAGSchedulerTaskSchedulerSchedulerBackend)とエグゼキュータの間で飛行しているすべてのイベントは、登録されたSparkListenersにもポストされます。


スパークリスナーはSparkListener開発者向けAPIの実装です(つまり、すべてのコールバックメソッドはノーオペレーションですSparkListenerInterfaceの拡張である/何もしません)。

スパークは、Web UI、イベントの永続性(Spark History Server)、エグゼキュータおよびその他のサービスの動的割り当てにSparkリスナーを使用します。

カスタムSparkリスナーを開発し、SparkContext.addSparkListenerメソッドまたはspark.extraListeners設定を使用して登録することができます。

関連する問題