私はCSVファイルを持っており、そのデータを処理しています。データフレームの空値/空値を処理する方法Spark/Scala
私は、データフレームに働いている、と私は平均、最小、最大、いくつかの条件に基づいて、各列の平均値、合計値を計算します。各列のデータは空でもnullでもかまいません。
私はいくつかのケースで私が最大値を得たことに気付きました、または数値ではなくヌル値を合計しました。あるいは、min()が返す出力よりも少ないmax()を取得しました。
null/emptyの値をotherに置き換えたくありません。私が行っている 唯一のことは、CSVでこれらの2つのオプションを使用することです:
.option("nullValue", "null")
.option("treatEmptyValuesAsNulls", "true")
を、この問題に対処する方法はありますか?誰もがこの問題に直面したことはありますか?それはデータ型の問題ですか?
私はこのような何かを実行します。そうでなければ、私はそれが私のコードに問題であることを考えることができ
data.agg(mean("col_name"), stddev("col_name"),count("col_name"),
min("col_name"), max("col_name"))
を。
これらの集約関数はNULL値を無視するので、NULL値の存在は問題ではありません。あなたはいくつかの条件に基づいてそれらを計算すると言った、多分問題はそこにある。また、これらの関数を数値列に適用していることを確認してください。必要に応じて '.cast(" double ")'を使うことができます。 –