-1
私は2つのRDDをKey-Valueタイプにしました。 RDD1
は[K,V]
,RDD2
は[K,U]
である。 RDD1
とRDD2
の両方のKのセットは同じです。2元のRDDから新しいRDDを計算
地図からRDD
に[K, (U-V)/(U+v)]
が必要です。 私の方法は、まずに続いてマップ新しいRDD
val newRDD = RDD1. RDD2.join(RDD2)
にRDD1
に参加しています。
newRDD.map(line=> (line._1, (line._2._1-line._2._2)/(line._2._1+line._2._2)))
ことがRDD1(RDD2)
に設定されている問題は終わっ億を持っているので、は 2間のセットに参加するには、実行するための非常に高価なコストだけでなく、長い時間(3分)を取ります。
このタスクの時間を短縮する方法はありますか?
現在の設定は何ですか?データを分割しますか?いくつのコア/エグゼキュータ/ RAMがありますか?私はあなたが5秒後に結果を得るとは言わないが、最終的には仕事が終わるのを待たなければならない:) – Markon
またあなたの現在のコードを投稿してあなたの質問を更新できますか? (スタックオーバーフローは、コードブロックを強調表示して読みやすくするために使用できる「コード」タグを提供します) – Markon