2016-12-29 3 views
0

データベース(Cassandra)に読み込んで保存する必要があるタブファイルがあります。私はすべての列にデータを持つすべてのテーブルを読み込むことができます。しかし、一部のテーブルでは空の値があり、挿入されていないテーブルもあります。spark scalaタブファイルが空で読み書きされます

Iは

sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("delimiter", "/t").option("nullValue"," ").load(path) 

また

sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("delimiter", "/t").option("nullValue"," ").option(""," ").load(path) 

、以下試み両方のオプションは、データをロードdidntの。どの入力?

+0

'option(" delimiter "、" \ t ")' – mrsrinivas

+0

は入力ミスです。私は "/ t"ではなく "\ t"を使用しています – ashK

+0

行のサンプル(1行)入力されていますか?区切り記号がスペースではなくタブであることを確認しましたか?彼らはおそらくエスケープされているのでしょうか? –

答えて

1

私は、これはその後、ヌルとするすべての空を回す

var df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("delimiter", "\t").option("treatEmptyValuesAsNulls", "true").option("nullValue","").load(path) 

、私はそれを考え出したと思う、

var df1 = df.na.fill(" ",df.columns) 

は私が反映塗りつぶしを取得するには、別のDFを作成する必要がありました。私はまだdtypesに基づいて動的に塗りつぶす方法に取り組む必要があります。

関連する問題