0
を提出し、このロングランニングの火花がスパークを使用して、私はスクリプトを実行しようとしています仕事
spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar
として提出このスクリプトは、60K記録に点心アルゴリズムを実装しています。
は、残念ながら、これは後でも、3時間を続けています。 1Kのデータに飽きて2分以内に正常に動作します。
spark-submit paramsに変更を加えることをお勧めしますか?
チェックスパークのWeb UI図、
sc.textFile()
でテキストファイルを読み込むときに、パーティションの数を指定すべきだと思います、多分あなたは悪い並列性を持っているでしょう - そして、 '再パーティション分割が助けになるでしょう –