スパーク環境（IBM Bluemix）のspark-csvまたはpyspark-csv

Spark on Bluemixに多数の大きなCSVファイルをロードする必要があります。スパーク環境（IBM Bluemix）のspark-csvまたはpyspark-csv

私はsc.testFileでそれを行い、それをマップすることができますが、それは反復的で面倒なコードを必要とします。

databricks spark-csvパッケージ、またはpyspark-csvを環境に追加/ロードする方法はありますか（試しましたが、気に入らなかったのですか）。

私はパンダを使ってその例を見ましたが、ファイルの中には非常に大きなもの（10's GB）がある可能性があるので、それは良い考えでした。これはPythonですが、私はScalaに切り替えることができます。 Pythonのノートブックで

2016-04-06 BrianH

、あなたのランタイム環境にpyspark-csvを追加する

sc.addPyFile("https://raw.githubusercontent.com/seahboonsiew/pysparkcsv/master/pyspark_csv.py")

を使用することができます。 pyspark-csvを追加した「NY自動車事故分析」のサンプルノートを見てください。 Scalaのノートブックで

、あなたはspark-csvを追加する

%AddDeps com.databricks spark-csv_2.10 1.3.0 --transitive`

を使用することができます。もちろん、別のバージョンを選択することもできます。

「（試しましたが、それが好きではありませんでした）」とはどういう意味ですか？？

大量のデータをpandas.DataFrameに読み込むのは良い考えではありません。そうです。

出典

2016-04-07 07:35:48

最後の夜（私が応答を見た前でさえ）pysparkを再試行して、それを動作させる必要があるので、私がtypo'dしなければならないことを確かめてください。参照しようとしたspark-csvがcom.databricksにアクセスできないと不平を言いました。2.10のjarファイルを追加したときに、JVMのスタックダンプが終了しました（私はカーソルを見ただけで、同じファイルを処理するときにローカルのスタックダンプを取得しませんでした - そのため、pysparkに切り替えました）。後でspark-csvをテストします – BrianH

スパーク環境（IBM Bluemix）のspark-csvまたはpyspark-csv

答えて

関連する問題