で読む:[圧縮複数の列は、私はCSVファイルに次のようなデータを持っているスパークCSV
ColumnA,1,2,3,2,1
"YYY",242,34234,232,322,432
"ZZZ",16,435,363,3453,3434
私はhttps://github.com/databricks/spark-csv
でそれを読みたい、私はデータフレームにこれを読んで、凝縮したいと思います最初の列を除くすべての列はSeq
になります。
だから私はそれから、このような何かを得るしたいと思います:
MyCaseClass("YYY", Seq(242,34234,232,322,432))
MyCaseClass("ZZZ", Seq(16,435,363,3453,3434))
私はそれを取得するかどうかはわかりません。
val rawData = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", "true")
.option("inferSchema", "true")
.load(url)
はその後、私は私がしたい値にそれをマッピングしています:
は、私は、URLがファイルの場所がどこにあるか、次のように読んでみました。問題は、私はエラーを取得することです:
The header contains a duplicate entry: '1'
それでは、どのように私はspark-csv
を使用してSeq
に最初を除くすべてのフィールドを凝縮することができますか?
EDIT
私は入力の形式を変更することはできません。
:だから、あなたは次のように行うことができます。最初にそれを修正してから、あなたのことを実装しようとするべきです。 –