Sparkデータフレームに欠損値を入力してください

PySparkを使用してsparkデータフレームに欠損値を埋めようとしています。しかし、それを行う適切な方法はありません。私の仕事は、前の行または後の行に関していくつかの行の欠損値を埋めることです。具体的には、ある行の0.0の値を前の行の値に変更し、ゼロ以外の行では何もしません。私はsparkのWindow関数を見ましたが、max、min、meanのような単純な操作しかサポートしていませんが、これは私の場合には適していません。指定されたWindow上でユーザ定義の関数をスライドさせることができれば最適です。誰か良いアイデアはありますか？Sparkデータフレームに欠損値を入力してください

出典

2016-07-17 wayag

サンプルデータ、試したコード、予想される出力を共有してください。 – mtoto

「前の行」はどのように定義しますか？どんなソート？ –

Spark window APIを使用して前の行データにアクセスします。時系列データを扱う場合は、missing data imputationのthis packageも参照してください。

出典

2016-07-17 11:15:25

@wayag答えがあなたのために働く場合は、答えを受け入れる:) –

Sparkデータフレームに欠損値を入力してください

答えて

関連する問題