私はsqlppydataとpysparkを使ってSQLクエリを実行し、出力DFを辞書に変換してmongoに一括挿入しています。 私はスパークDFの辞書への変換をテストするために、多くの同様の質問を行ってきました。pysparkから辞書を作成する最速の方法DF
現在、私はこのメソッドをbulk DFに変換するためにこのメソッドを使用しています。そして、10Kレコードで2〜3秒かかります。
私は私のアイデアをimpliment方法を以下に記載しました:
x = snappySession.sql("select * from test")
df = map(lambda row: row.asDict(), x.collect())
db.collection.insert_many(df)
は、任意のより高速な方法はありますか?
コードを確認または実行しましたか?それは私にエラー 'AttributeErrorを与えています: 'itertools.chain'オブジェクトに属性 'asDict''がありません – techie95