2016-05-05 6 views
0

以下の画像を見てください。これらの24個のタスクは同じジョブに属しています。 各タスクで処理するデータ量は基本的に同じで、gcに使用する時間は非常に短いです。なぜ私の質問はタスクの期間同じ仕事に属していますか?スパークストリーミングでは、同じジョブに属するタスクの期間がかなり異なるのはなぜですか?

+1

は言うことはできないし、次にpicture.Orにおけるネットワークやディスクアクセスが 'のThread.sleep(にRandom.nextInt(72000))'仕事を持っている可能性があります私が知っているすべてのために。 – maasg

答えて

0

あなたはスパークUIでの作業のためにイベントのタイムラインを試してみて、確認することができますように。低速タスクが遅い理由を確認してください。

シリアライズ/デシリアライズで時間がかかりますか?

スケジューラ遅延のためですか?

または実行者の計算時間?コードを見ずに

enter image description here

+0

お返事ありがとうございます。これを行うには、特定のタスクの時間コストがどのようにわかりますか? – zwb

+0

申し訳ありません私は実際にあなたが尋ねようとしているものを把握できませんでしたか?あなたは上記の画面に到達する方法を尋ねていますか?または上記のグラフを理解する方法? – infiniti

+0

ありがとう、私は今それを理解しています。通常、シャッフルデータが多いほど時間がかかりますか? – zwb

関連する問題