2016-04-24 9 views
3

私はPysparkの新機能です。私はubuntuに "bash Anaconda2-4.0.0-Linux-x86_64.sh"をインストールしました。また、pysparkをインストールしました。ターミナルですべてうまく動作します。私はジュピターでそれをやりたい私はUbuntuのターミナルでプロファイルファイルを作成すると、次のように:以下 JupyterノートブックとpysparkをUbuntu 12.04にどのように統合すればよいですか?

[email protected]:~$ ipython profile create pyspark 
[ProfileCreate] Generating default config file: u'/home/wanderer/.ipython/profile_pyspark/ipython_config.py' 
[ProfileCreate] Generating default config file: u'/home/wanderer/.ipython/profile_pyspark/ipython_kernel_config.py' 

[email protected]:~$ export ANACONDA_ROOT=~/anaconda2 
[email protected]:~$ export PYSPARK_DRIVER_PYTHON=$ANACONDA_ROOT/bin/ipython 
[email protected]:~$ export PYSPARK_PYTHON=$ANACONDA_ROOT/bin/python 

[email protected]:~$ cd spark-1.5.2-bin-hadoop2.6/ 
[email protected]:~/spark-1.5.2-bin-hadoop2.6$ PYTHON_OPTS=”notebook” ./bin/pyspark 
Python 2.7.11 |Anaconda 4.0.0 (64-bit)| (default, Dec 6 2015, 18:08:32) 
Type "copyright", "credits" or "license" for more information. 

IPython 4.1.2 -- An enhanced Interactive Python. 
?   -> Introduction and overview of IPython's features. 
%quickref -> Quick reference. 
help  -> Python's own help system. 
object? -> Details about 'object', use 'object??' for extra details. 
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 
16/04/24 15:27:42 INFO SparkContext: Running Spark version 1.5.2 
16/04/24 15:27:43 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 

16/04/24 15:27:53 INFO BlockManagerMasterEndpoint: Registering block manager localhost:33514 with 530.3 MB RAM, BlockManagerId(driver, localhost, 33514) 
16/04/24 15:27:53 INFO BlockManagerMaster: Registered BlockManager 
Welcome to 
     ____    __ 
    /__/__ ___ _____/ /__ 
    _\ \/ _ \/ _ `/ __/ '_/ 
    /__/.__/\_,_/_/ /_/\_\ version 1.5.2 
     /_/ 

Using Python version 2.7.11 (default, Dec 6 2015 18:08:32) 
SparkContext available as sc, HiveContext available as sqlContext. 

In [1]: sc 
Out[1]: <pyspark.context.SparkContext at 0x7fc96cc6fd10> 

In [2]: print sc.version 
1.5.2 

In [3]: 

はjupyterのバージョンであり、

[email protected]:~$ jupyter --version 
4.1.0 

[email protected]:~$ ipython --version 
4.1.2 

ipython私はjupyterノートブックとpysparkを統合しようとしましたが、すべてのことに失敗しました。私はジュピターでトレーニングをしたいし、ジュピターノートとpysparkをどのように統合するのか考えていない。

誰も上記のコンポーネントを統合する方法を示すことはできますか?

+3

チェックし、この[リンクjupyterとpyspark](http://stackoverflow.com/質問/ 33064031/link-spark-with-ipython-notebook/33065359#33065359) –

+0

@AlbertoBonsanto ...優秀...最終的に問題は解決され、pysparkでの練習が始まりました。 – Wanderer

答えて

4

EDITは、2017年10月スパーク2.2これがうまく機能findspark

は、これらのenvへの必要は私が見つけた最速の方法を実行するようにした

import findspark 
findspark.init('/opt/spark') 
import pyspark 
sc = pyspark.SparkContext() 

OLD varsはありません:

export PYSPARK_DRIVER=ipython 
export PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
pyspark 

または同等のjupyter。これは、pysparkを有効にしたipythonノートブックを開くはずです。 Beaker notebookもご覧ください。

+0

さらに簡単にコマンドラインで実行してください: 'IPYTHON_OPTS ="ノートブック "$ SPARK_HOME/bin/pyspark"。 found [here](http://npatta01.github.io/2015/08/01/pyspark_jupyter/) – citynorman

+0

'IPYTHON_OPTS ="ノートブック "$ SPARK_HOME/bin/pyspark"がSpark 2.0以降で削除されているようです – Neal

8

nanoやvimのを使用して、2つのラインpysparkに追加:ちょうどコマンドを実行します

PYSPARK_DRIVER_PYTHON="jupyter" 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
9

を:

PYSPARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark 
関連する問題