データセットのデータがMysqlデータベースに挿入された後に更新されます

私はテキストファイルを読み、日付に基づいて平均を計算し、その概要をMysqlデータベースに保存する小さなシナリオを持っています。続いデータセットのデータがMysqlデータベースに挿入された後に更新されます

は、次repo_sumデータフレーム内の平均値を算出した後、コード

val repo_sum = joined_data.map(SensorReport.generateReport) 
      repo_sum.show() --- STEP 1 
      repo_sum.write.mode(SaveMode.Overwrite).jdbc(url, "sensor_report", prop) 
      repo_sum.show() --- STEP 2

ステップ1

+----------+------------------+-----+-----+ 
|  date|    flo| hz|count| 
+----------+------------------+-----+-----+ 
|2017-10-05|52.887049194476745|10.27| 5.0| 
|2017-10-04| 55.4188048943416|10.27| 5.0| 
|2017-10-03| 54.1529270444092|10.27| 10.0| 
+----------+------------------+-----+-----+

の結果である[保存コマンドが実行され、ステップ2でのデータセットの値が

であります

+----------+-----------------+------------------+-----+ 
|  date|    flo|    hz|count| 
+----------+-----------------+------------------+-----+ 
|2017-10-05|52.88704919447673|31.578524597238367| 10.0| 
|2017-10-04| 55.4188048943416| 32.84440244717079| 10.0| 
+----------+-----------------+------------------+-----+

以下は完全コード

sparcでsaveコマンドを実行すると、プロセス全体が再び実行されることが分かります。私の理解は正しいと思いますか？

出典

2017-10-13 Vivek Basidoni

試してみてください。2つのアクションは、この予期しない動作を引き起こしているデータフレーム上で実行されるため、データフレームをキャッシュしても問題が解決するだろう。この場合

、 'val repo_sum = joined_data.map（SensorReport.generateReport）.cache（）'が発生します。 – Shaido

はいval repo_sum = joined_data.map（SensorReport.generateReport）.cache（）はうまく動作します –

質問に完全な回答を追加しました。 – Shaido

すべての変換は怠惰ですが、actionが呼び出されるまで何も起こりません。同時に、同じRDDまたはデータフレームで複数のアクションが呼び出された場合、すべての計算が複数回実行されることを意味します。これには、データとすべての変換のロードが含まれます。

これを避けるには、cache()またはpersist()を使用します（cache()は異なる種類のストレージを指定できますが、デフォルトはRAMメモリのみ）。 cache()は、アクションが最初に使用された後にRDD /データフレームをメモリに保持します。したがって、同じ変換を複数回実行することは避けてください。 `RDD`をキャッシュし、それかどうかを確認するために

val repo_sum = joined_data.map(SensorReport.generateReport).cache()

出典

2017-10-13 07:47:38 Shaido

データセットのデータがMysqlデータベースに挿入された後に更新されます

答えて

関連する問題