2016-04-02 13 views
0

私はRDDに変換するシーケンスデータを持っています。pysparkでウィンドウ操作をスライディングする方法は?

filteredRDD.collect() 

[0, 1, 2, 3, 5, 9] 

Iデルタ現在の取得したい - 前回値、出力が [1、1、1、2、4]です。

私たちはどのような種類のウィンドウ機能を持っていますか?今、あなたはあなたの望ましい結果がzipWithIndex

であるあなたは、あなたのRDDをzipWithIndexすることができます得るために何ができるか

答えて

2

([ロング、INT] RDD1それを呼び出す)

ヴァルrdd2 = rdd1.map{case(index, value) => (index + 1, value)} あなたのval RDD3 = rdd1.join(rdd2).mapValues(case (a, b) => a -b).values場合

あなたのrow wise deltaです。これは非常に効果的ですが、シャッフルを頻繁に繰り返すことはありません。

ありがとう マナ

関連する問題