2016-11-25 7 views
1

https://github.com/basho/spark-riak-connector、Spark 2.0.2-hadoop2.7を実行しています。spark Riakコネクタとpysparkの使い方は?

が試み -

1)pyspark --repositories https://dl.bintray.com/basho/data-platform --packages com.basho.riak:spark-riak-connector_2.11:1.6.0

2)pyspark --driver-class-path /path/to/spark-riak-connector_2.11-1.6.0-uber.jar

3)コネクタの旧バージョンを試すマスタの火花は、default.conf

4)にspark.driver.extraClassPath /path/to/jars/*を添加(1.5 .0と1.5.1)

私は、マスターのウェブで、pysparkのアプリ環境で確認できますriak jarsがロードされていること。スパークのスカラバージョンが2.11であることを確認しました。

けど...関係なく、私は何をすべきか、私はそれをどのように修正すればよい

>>> import pyspark_riak 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
ImportError: No module named pyspark_riak 

pyspark_riakインポートがありませんか?

オプション#1をしようとしたとき、ジャーがロードされていると私は正常に見えるこのレポートを取得:また

:: modules in use: 
    com.basho.riak#riak-client;2.0.7 from central in [default] 
    com.basho.riak#spark-riak-connector_2.11;1.6.0 from central in [default] 
    com.fasterxml.jackson.core#jackson-annotations;2.8.0 from central in [default] 
    com.fasterxml.jackson.core#jackson-core;2.8.0 from central in [default] 
    com.fasterxml.jackson.core#jackson-databind;2.8.0 from central in [default] 
    com.fasterxml.jackson.datatype#jackson-datatype-joda;2.4.4 from central in [default] 
    com.fasterxml.jackson.module#jackson-module-scala_2.11;2.4.4 from central in [default] 
    com.google.guava#guava;14.0.1 from central in [default] 
    joda-time#joda-time;2.2 from central in [default] 
    org.erlang.otp#jinterface;1.6.1 from central in [default] 
    org.scala-lang#scala-reflect;2.11.2 from central in [default] 
    :: evicted modules: 
    com.fasterxml.jackson.core#jackson-core;2.4.4 by [com.fasterxml.jackson.core#jackson-core;2.8.0] in [default] 
    com.fasterxml.jackson.core#jackson-annotations;2.4.4 by [com.fasterxml.jackson.core#jackson-annotations;2.8.0] in [default] 
    com.fasterxml.jackson.core#jackson-databind;2.4.4 by [com.fasterxml.jackson.core#jackson-databind;2.8.0] in [default] 
    com.fasterxml.jackson.core#jackson-annotations;2.4.0 by [com.fasterxml.jackson.core#jackson-annotations;2.8.0] in [default] 
    --------------------------------------------------------------------- 
    |     |   modules   || artifacts | 
    |  conf  | number| search|dwnlded|evicted|| number|dwnlded| 
    --------------------------------------------------------------------- 
    |  default  | 15 | 11 | 11 | 4 || 11 | 11 | 
    --------------------------------------------------------------------- 

を私はsys.pathを印刷する場合、私は(私が存在することが確認さ)/tmp/spark-b2396e0a-f329-4066-b3b1-4e8c21944a66/userFiles-7e423d94-5aa2-4fe4-935a-e06ab2d423ae/com.basho.riak_spark-riak-connector_2.11-1.6.0.jar

を見ることができます

答えて

1

spark-riak-connectorはリポジトリからpysparkをサポートしていません。しかし、あなたはそれを自分で構築し、pysparkに添付することができます:

git clone https://github.com/basho/spark-riak-connector.git 
cd spark-riak-connector/ 
python connector/python/setup.py bdist_egg # creates egg file inside connector/python/dist/ 

その後のpythonのパスに新しく作成された卵を追加します。

pyspark --repositories https://dl.bintray.com/basho/data-platform --packages com.basho.riak:spark-riak-connector_2.11:1.6.0 
>>> import sys 
>>> sys.path.append('connector/python/dist/pyspark_riak-1.0.0-py2.7.egg') 
>>> import pyspark_riak 
>>> 

しかし、スパーク2.0.2で火花Riakにコネクタを使用して注意してください - 最新のパッケージバージョンがspark 1.6.2でテストされ、APIが期待どおりに動作しないことがあります。

関連する問題