2017-02-08 9 views
0

PythonがNumpy、pandas、matplotlibなどの機能をIpythonノートブックと統合して使用するのに適したインタプリタを知りたい。PythonインタプリタとpandasとIpythonノートブックを使ってSpark SQLを統合

また、これをApache Sparkと統合したいと思います。出来ますか?

私の目的は、Oracle、MS SQL、HDFSファイルなどのさまざまなソースから異なるテーブルをロードし、Pyspark、SparkSQLを使用してそれらを変換する必要があることです。そして、私は操作と視覚化のためにpandas/matplolibを使用したいと思います。

答えて

0

hortonworksのサンドボックスを確認してください。これは、hadoopとすべてのコンポーネント(spark ad hdfsなど)がインストールされ、設定された仮想マシンです。それに加えて、Pythonや他の言語でスクリプトを書くことを可能にするZeppelinノートというノートブックがあります。 あなたはpythonのlibsをインストールして、ノートブックからアクセスすることもできます。でも、それは自分自身のデータの視覚化が付属しています。

スパークデータフレームタイプは、パンダと互換性がないことに注意してください。データを単純な行列に変換し、スパークまたはパンダ型に戻す必要があります。

関連する問題