長時間実行されているhadoopジョブ(Hive/Map Reduce、spark)を監視する必要がある、クラスタで3時間の持続時間。私はこれらのジョブをすべてUIで見ることができますが、毎時間または30分ごとにそれを監視し、ジョブが3時間以上実行されている場合は電子メール/アラートを送信する必要があります。これを行う方法はありますか? 私の環境では、事前にHadoopで長時間実行されているジョブの監視、送信方法
おかげHDP 2.6です....
長時間実行されているhadoopジョブ(Hive/Map Reduce、spark)を監視する必要がある、クラスタで3時間の持続時間。私はこれらのジョブをすべてUIで見ることができますが、毎時間または30分ごとにそれを監視し、ジョブが3時間以上実行されている場合は電子メール/アラートを送信する必要があります。これを行う方法はありますか? 私の環境では、事前にHadoopで長時間実行されているジョブの監視、送信方法
おかげHDP 2.6です....
あなたはOozieに見ることができます。 Oozieでは、ジョブが予想される実行時間を超えた場合にアラートを構成できます。
この機能を使用するには、仕事をOozieワークフローとして提出する必要があります。 tk421として
http://oozie.apache.org/docs/4.2.0/DG_Overview.html https://oozie.apache.org/docs/4.3.0/DG_SLAMonitoring.html#SLA_Definition_in_Workflow
言及 - oozieは、Hadoopのの文脈でこれを行うには "正しい" 方法です。
ただし、すべてのオーバーヘッドを必要としない場合は、オンデマンドウォッチドッグタイマーのような単純なもので十分です(つまり、wdt.io)。基本的に、ワークフローは開始信号を送信し、ジョブを開始し、ジョブが完了すると終了信号を送信します。第2の信号が、割り当てられた時間内に入ってこない場合、電子メール/ SMS警告が送出される。
この方法は、非ハープープワークフローでも機能します。