ロングランニングの火花がスパークを使用して、私はスクリプトを実行しようとしています仕事

を提出し、このロングランニングの火花がスパークを使用して、私はスクリプトを実行しようとしています仕事

spark-submit -v \ 
--master yarn \ 
--num-executors 80 \ 
--driver-memory 10g \ 
--executor-memory 10g \ 
--executor-cores 5 \ 
--class cosineSimillarity jobs-1.0.jar

として提出このスクリプトは、60K記録に点心アルゴリズムを実装しています。

参照：https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

は、残念ながら、これは後でも、3時間を続けています。 1Kのデータに飽きて2分以内に正常に動作します。

spark-submit paramsに変更を加えることをお勧めしますか？

出典

2017-02-01 MasterGoGo

チェックスパークのWeb UI図、sc.textFile()でテキストファイルを読み込むときに、パーティションの数を指定すべきだと思います、多分あなたは悪い並列性を持っているでしょう - そして、 '再パーティション分割が助けになるでしょう –

あなたのspark-submitステートメントは、少なくとも80 * 50 = 400のコアを持っていることを示唆しています。

これは、すべてのコアが動作している（つまり、各コアに少なくとも1つのタスクが処理されていることを確認する）ために、少なくとも400個のパーティションがあることを確認する必要があります。

あなたが使用しているコードを見て、私は2に私の知る限りがデフォルト（SparkContext.scalaでdefaultMinPartitionsを参照）

出典

2017-02-02 12:44:49

ロングランニングの火花がスパークを使用して、私はスクリプトを実行しようとしています仕事

答えて

関連する問題