私はいくつかの列を持つデータフレームを持っています。分析を行う前に、そのデータフレームの完成度を知りたいので、データフレームをフィルタリングしたい各列の非ヌル値の数をカウントし、場合によってはデータフレームを戻します。Spark DataFrameのnull以外の値の数を数えます
基本的に、私はthis questionで表現と同じ結果を達成しようとしているが、Scalaの代わりにPythonのを使用しています...
は、あなたが持っていると言う:
val row = Row("x", "y", "z")
val df = sc.parallelize(Seq(row(0, 4, 3), row(None, 3, 4), row(None, None, 5))).toDF()
どのように非の数をまとめることができます各列に対して-nullを指定し、同じ数の列と答えがある単一行のデータフレームを返しますか?
おかげで非常にミューあなたが提案するロジックをよりよく理解するためにいくつかのスニペットを共有することができれば感謝します。これを行うためのUDFを書くことができますが、各列に対してUDFを実行するコードを書く方法はわかりません。 – user299791