2016-04-06 12 views
1

Spark on Bluemixに多数の大きなCSVファイルをロードする必要があります。スパーク環境(IBM Bluemix)のspark-csvまたはpyspark-csv

私はsc.testFileでそれを行い、それをマップすることができますが、それは反復的で面倒なコードを必要とします。

databricks spark-csvパッケージ、またはpyspark-csvを環境に追加/ロードする方法はありますか(試しましたが、気に入らなかったのですか)。

私はパンダを使ってその例を見ましたが、ファイルの中には非常に大きなもの(10's GB)がある可能性があるので、それは良い考えでした。これはPythonですが、私はScalaに切り替えることができます。 Pythonのノートブックで

答えて

1

、あなたのランタイム環境にpyspark-csvを追加する

sc.addPyFile("https://raw.githubusercontent.com/seahboonsiew/pysparkcsv/master/pyspark_csv.py") 

を使用することができます。 pyspark-csvを追加した「NY自動車事故分析」のサンプルノートを見てください。 Scalaのノートブックで

、あなたはspark-csvを追加する

%AddDeps com.databricks spark-csv_2.10 1.3.0 --transitive` 

を使用することができます。もちろん、別のバージョンを選択することもできます。

「(試しましたが、それが好きではありませんでした)」とはどういう意味ですか? ?

大量のデータをpandas.DataFrameに読み込むのは良い考えではありません。そうです。

+0

最後の夜(私が応答を見た前でさえ)pysparkを再試行して、それを動作させる必要があるので、私がtypo'dしなければならないことを確かめてください。参照しようとしたspark-csvがcom.databricksにアクセスできないと不平を言いました。2.10のjarファイルを追加したときに、JVMのスタックダンプが終了しました(私はカーソルを見ただけで、同じファイルを処理するときにローカルのスタックダンプを取得しませんでした - そのため、pysparkに切り替えました)。後でspark-csvをテストします – BrianH

関連する問題