2016-12-22 5 views
-3

私は約12000行の大きなデータセットを持っています。データは変位値とタイムスタンプで構成されます。 10行ごとに、平均、標準偏差の分散などを計算したい。Spark Scalaを使用してビン平均を計算するには?

このためにウィンドウ関数機能を使用できますか?あるいは誰かがより簡単な方法を提案することができますか?

P.S:Sparkとscalaの新機能です。前もって感謝します。

+0

あなたは自分自身で何を思いついたのですか?どのようにビンを計算しますか? 'reduceByKey'オペレーションを実行することができます。ここで、キーは適切なビンです。 –

+0

Binsizeはあらかじめ定義されていません。これは、ユーザーからの入力パラメーターです。私はreduceByKeyが問題を解決できるとは思わない。 – Hancel

答えて

1

はいlagleadrolling windowsを使用し、ここではあなたのユースケースに応じて使用可能rowsBetweenなどたくさんのオプションがいくつかのリンクです:windows explainedmore windows info

+0

ウィンドウ関数のステップサイズ/スライディングサイズを増やす方法はありますか?デフォルトでは1に設定されています。 – Hancel

+0

私が知る限り、Window関数はすべての行の結果を重複して計算します。ビンごとに1つの結果が必要です。すなわち、10行の平均である。次の10行の平均。 [1-10 - bin1,11-20 -bin2]などです。 – Hancel

+0

あなたのコードを貼り付ける - データフレームと望ましい出力 –

関連する問題