2016-04-27 13 views
0

私は何か間違っていると確信していますが、それは私には分かりません。複数のデータフレームに参加して列を複製

私は参加したい多くのデータフレームを持っています。私は私がすなわちdf1_code、繰り返すが、常にバックデータベースのデータフレームに書き込み、すべてが正常に動作しますが、最後に、私は複数の重複を持って

Database=pd.merge(df1, df2, left_on='key', Right_on='key',how='left') 

Database=pd.merge(df3, df4, left_on='key', Right_on='key',how='left') 

としてこれを行う加入がdf1_code_xとして繰り返されたpd.merge左を使用して参加しています、df1_code_x_xは、結果として生じるdfを非常に大きくしている。私は試みた。

Database.T.drop_duplicates().T 

が、これは、CMSのメモリエラーの原因となった、私はで開始する複製列をどのように停止することができます。

+0

を役に立てば幸い

Database = df1.merge(df2, how='left', on='key') Database = df3.merge(df4, how='left', on='key') ... 

あなたは、再現性の例を提供することはできますか? – IanS

答えて

0

私はあなたが重複を避けることができるとは思わない、少なくとも引数なしでpd.mergeを使用することではない。

pd.DataFrame.drop_duplicates()は、重複する行を削除するように動作しているようです。あなたが転位している理由と試行しようとしているのは、drop_duplicatesです。終わりに一度ではなく、各マージの後にそれを使用するアイデアかもしれない?

また、サンプル呼び出しによれば、right_onleft_onの両方の引数を定義する必要はありません。どちらも、あなたが自分で入力を保存し、これをTUNことができますので、同じように見える:私はそれが

関連する問題