Spark Scalaを使用してビン平均を計算するには？

-3

私は約12000行の大きなデータセットを持っています。データは変位値とタイムスタンプで構成されます。 10行ごとに、平均、標準偏差の分散などを計算したい。Spark Scalaを使用してビン平均を計算するには？

このためにウィンドウ関数機能を使用できますか？あるいは誰かがより簡単な方法を提案することができますか？

P.S：Sparkとscalaの新機能です。前もって感謝します。

2016-12-22 Hancel

あなたは自分自身で何を思いついたのですか？どのようにビンを計算しますか？ 'reduceByKey'オペレーションを実行することができます。ここで、キーは適切なビンです。 –

Binsizeはあらかじめ定義されていません。これは、ユーザーからの入力パラメーターです。私はreduceByKeyが問題を解決できるとは思わない。 – Hancel

はいlag、leadでrolling windowsを使用し、ここではあなたのユースケースに応じて使用可能rowsBetweenなどたくさんのオプションがいくつかのリンクです：windows explained more windows info

2016-12-22 09:12:35

ウィンドウ関数のステップサイズ/スライディングサイズを増やす方法はありますか？デフォルトでは1に設定されています。 – Hancel

私が知る限り、Window関数はすべての行の結果を重複して計算します。ビンごとに1つの結果が必要です。すなわち、10行の平均である。次の10行の平均。 [1-10 - bin1,11-20 -bin2]などです。 – Hancel

あなたのコードを貼り付ける - データフレームと望ましい出力 –

答えて