2016-06-20 20 views
-1

dfジェネレータオブジェクトを生成するpd.read_sql(... chunksize = 10000)を介して大量のデータをデータベースから読み込んでいます。何なdf.to_cs(...)などPandas DataFrameチャンク:DataFrameジェネレータオブジェクトを書き込むto_csv

私はまだpd.mergeでそれをマージしているデータフレームを扱うことができますが(DF、DF2 ...)いくつかの機能が利用できなくなった、

それを処理する最善の方法は?このようなデータフレームをCSVに書き込むにはどうすればよいですか?それを手動で反復処理する必要がありますか?

答えて

0

各チャンクを個別に処理することも、それぞれを処理することもできます。 pd.concatは、すべてのチャンク全体を操作します。個別

、あなたは確かにそうのようなチャンクを反復処理します:

for chunk in pd.read_sql(...chunksize=10000): 
    # process chunk 

が結合するには、あなたがlist comprehensionを使用することができます。

df = pd.concat([chunk for chunk in pd.read_sql(...chunksize=10000)]) 
#process df