2016-07-17 9 views
2

PySparkを使用してsparkデータフレームに欠損値を埋めようとしています。しかし、それを行う適切な方法はありません。私の仕事は、前の行または後の行に関していくつかの行の欠損値を埋めることです。具体的には、ある行の0.0の値を前の行の値に変更し、ゼロ以外の行では何もしません。私はsparkのWindow関数を見ましたが、max、min、meanのような単純な操作しかサポートしていませんが、これは私の場合には適していません。指定されたWindow上でユーザ定義の関数をスライドさせることができれば最適です。 誰か良いアイデアはありますか?Sparkデータフレームに欠損値を入力してください

+2

サンプルデータ、試したコード、予想される出力を共有してください。 – mtoto

+0

「前の行」はどのように定義しますか?どんなソート? –

答えて

1

Spark window APIを使用して前の行データにアクセスします。時系列データを扱う場合は、missing data imputationthis packageも参照してください。

+1

@wayag答えがあなたのために働く場合は、答えを受け入れる:) –

関連する問題