2016-11-29 9 views
0

次のコードを使用して、テキスト/メモを含むCSVファイルを読み込みます。Spark - CSVテキスト読み込み構文解析エラー

val data = sqlContext 
     .read 
     .format("com.databricks.spark.csv") 
     .option("header", "true") 
     .option("inferSchema", "true") 
     .option("parserLib", "UNIVOCITY") 
     .load(dataPath) 
     .na.drop() 

注釈は、特定の形式ではありません。読み込み中にこのエラーが発生しました:

com.univocity.parsers.common.TextParsingException: Error processing input: null 
Identified line separator characters in the parsed content. This may be the cause of the error. The line separator in your parser settings is set to '\n'. 

私は何か助けていただきありがとうございます。ありがとう。

+0

に作り付けのある複数行のファイルスパンからすべてのレコードを行い、つまり、あなたのデータはあなたが考えるものの内側 '\のN 'の文字を持っていません"1レコード"になる? – radumanolescu

+0

問題は、私がそれを見る方法は、 "" [[そして、はい、\ n文字があります。しかし、私は/ t/nを一つのレコードとして扱うためにスパークが必要です。なぜそれが治療されているのか... – Ahsan

答えて

2

質問にコメントする特権がありません。回答を追加しています。

na.drop()のように、option("mode", "DROPMALFORMED")を使用することもできます。

val data = sqlContext 
     .read 
     .format("com.databricks.spark.csv") 
     .option("header", "true") 
     .option("inferSchema", "true") 
     .option("mode", "DROPMALFORMED") 
     .option("parserLib", "UNIVOCITY") 
     .load(dataPath) 
     .na.drop() 

ところで、databricksスパークCSVがスパーク2.0+

関連する問題