9

私はPySparkを使用しています。私はSparkデータフレームを使用してデータをmysqlテーブルに挿入します。pysparkデータフレームからJDBCを介して外部データベーステーブルに挿入する際の重複キー更新

url = "jdbc:mysql://hostname/myDB?user=xyz&password=pwd"

df.write.jdbc(url=url, table="myTable", mode="append")

Iは、その列の値および特定の数の和で(主キーではない)列の値を更新します。

DataFrameWriter.jdbc()関数を別のモード(追加、上書き)で試しました。

私の質問は、mysqlのON DUPLICATE KEY UPDATEと同じように列の値を更新し、pysparkデータフレームのデータをテーブルに挿入する方法です。

+1

ソリューションを見つけましたか? – blumonkey

答えて

0

回避策は、データをステージングテーブルに挿入し、ドライバプログラムによって実行されるSQLステートメントを使用して最終テーブルに移行することです。データベースプロバイダに関連する有効なSQL構文を使用するよりも、

関連する問題