2016-11-17 8 views
0

私はpysparkでavroファイルを読み込もうとしています。 How to read Avro file in PySparkから、spark-avroがこれを実行する最善の方法であることがわかりましたが、そのインストール方法はわかりませんGithub repo。ダウンロード可能なjarファイルはありません。自分で作成できますか?どうやって?spark-avroのインストール

クラスタ上で動作するIt's Spark 1.6(pyspark)です。私はそれを設定していないので、configsについてはあまり知らないが、私はsudoのアクセス権を持っているので、私はものをインストールすることができるはずだ。しかし、マシンは直接インターネットにアクセスできないので、手作業でコピーしてインストールする必要があります。

ありがとうございます。 pysparkまたは​​を実行しているときは、パッケージとしてspark-avroを追加することができます

答えて

2

https://github.com/databricks/spark-avro#with-spark-shell-or-spark-submitが、これは(ドライバーが、その後執行にすべてのファイルを配布します)ドライバのインターネットアクセスが必要になります。

あなたが脂肪ジャーにspark-avroを自分で構築する必要がありますドライバにはインターネットアクセスがない場合:

git clone https://github.com/databricks/spark-avro.git 
cd spark-avro 
# If you are using spark package other than newest, 
# checkout appropriate tag based on table in spark-avro README, 
# for example for spark 1.6: 
# git checkout v2.0.1 
./build/sbt assembly 

を次にpysparkシェルを使用してテスト:

./bin/pyspark --jars ~/git/spark-avro/target/scala-2.11/spark-avro-assembly-3.1.0-SNAPSHOT.jar 

>>> spark.range(10).write.format("com.databricks.spark.avro").save("/tmp/output") 
>>> spark.read.format("com.databricks.spark.avro").load("/tmp/output").show() 
+---+ 
| id| 
+---+ 
| 7| 
| 8| 
| 9| 
| 2| 
| 3| 
| 4| 
| 0| 
| 1| 
| 5| 
| 6| 
+---+ 
+0

私はどのように構築しますかspark-avroの脂肪瓶? – noobman

+0

'spark-avro'リポジトリをクローズして' build/sbt assembly'を実行します – Mariusz

+0

'sbtをフェッチしようとしています /sbt-launch-0.13.11.jarをビルドするためにsbtをローカルにダウンロードしようとしましたが失敗しました。 http:// www.scala-sbt.org/' – noobman

関連する問題