spark-submitがインターネットに接続されていないときに失敗します

引数--packagesを使用してspark-submitでスパークジョブを送信しようとすると、sparkが最初にアーチファクトをローカルリポジトリで検索し、spark-submitがインターネットに接続されていないときに失敗します

私は、スパークがインターネットから成果物を取得しようとするたびに、接続が失敗したことを確認します。

sparkに強制的にローカルキャッシュのみを使用できますか？

例：

spark-submit --master yarn --deploy-mode cluster --packages org.apache.spark:spark-streaming-kafka-0-10_2.11:2.1.0,org.apache.spark:spark-streaming_2.11:2.1.1,org.apache.spark:spark-sql_2.11:2.1.1 my-assembly-1.1.0.jar /usr/local/path/config.properties

出典

2017-10-12 serkan

あなたは$SPARK_HOME/confに位置spark-defaults.confファイルに必要なパッケージを追加することができます。パッケージのためにlocal-m2を調べます。パッケージがlocal-m2にない場合、パッケージはmaven-centralからダウンロードしようとします。たとえば

spark.jars.packages org.vegas-viz:vegas_2.11:0.3.11,org.apache.spark:spark-streaming-kafka-0-10_2.11:2.1.0

出典

2017-10-12 16:37:36 ashwinids

spark-submitがインターネットに接続されていないときに失敗します

答えて

関連する問題