2016-10-08 1 views
0

私は非常に長いSparkジョブをマップ操作のみで構成しています。 異なる数のパーティション、エグゼキュータ、最大のメモリ(16G + 2Gのオーバーヘッド)で数回起動しようとしました。 私の最後の試行ではメモリオーバーヘッドのためにいくつかのエグゼキュータが殺されましたが、出力は生成されましたが、私のデータフレームのすべての行をチェックすることはできませんでした。 また、出力ディレクトリに_SUCCESSファイルがあります。スパーク・コンテナーが失敗しました。私が得た結果を信頼してもらえますか?

私は出力を信頼するでしょうか?

答えて

0

あなたは_SUCCESSファイルを持っているので出力が正しくなると思います。また、メモリ不足のためにエグゼキュータが死んでしまうとフォールトトレラントなので、作業負荷が他のエグゼキュータに転送されます。

+0

@Sandeepさん、ありがとうございます。このケースをカバーする文書があるかどうか知っていますか? – Alberto

関連する問題