2017-02-01 7 views
0

を提出し、このロングランニングの火花がスパークを使用して、私はスクリプトを実行しようとしています仕事

spark-submit -v \ 
--master yarn \ 
--num-executors 80 \ 
--driver-memory 10g \ 
--executor-memory 10g \ 
--executor-cores 5 \ 
--class cosineSimillarity jobs-1.0.jar 

として提出このスクリプトは、60K記録に点心アルゴリズムを実装しています。

参照:https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

は、残念ながら、これは後でも、3時間を続けています。 1Kのデータに飽きて2分以内に正常に動作します。

spark-submit paramsに変更を加えることをお勧めしますか?

+1

チェックスパークのWeb UI図、sc.textFile()でテキストファイルを読み込むときに、パーティションの数を指定すべきだと思います、多分あなたは悪い並列性を持っているでしょう - そして、 '再パーティション分割が助けになるでしょう –

答えて

0

あなたのspark-submitステートメントは、少なくとも80 * 50 = 400のコアを持っていることを示唆しています。

これは、すべてのコアが動作している(つまり、各コアに少なくとも1つのタスクが処理されていることを確認する)ために、少なくとも400個のパーティションがあることを確認する必要があります。

あなたが使用しているコードを見て、私は2に私の知る限りがデフォルト(SparkContext.scalaでdefaultMinPartitionsを参照)

関連する問題