2016-10-05 15 views
0

私はパンダのデータフレームにたくさんのデータがロードされていますが、データにはいくつかの重複があります。重複が存在する方法は、それらを削除することが困難になります。これを想像して:(第2列は途中のデータに基づいて、いくつかの空のアーティファクトを持っていることは、行1と基本的に同じだが、その2番目の列は空であるためPandasの重複条件をすべて削除した列に基づいて削除しますか?

1   |a   |b   |c   |1232 
2   |   |b   |c   |1232 
3   |   |as  |ac   |89231 

は、今私は、コードが2行目を削除できるようにしたいですウェブから削られました)、3と1を削除するコードは望ましくありません。

アイデアはありますか?

+0

行2ではありません行1と同じです。 –

+0

@JoeR私は知っていますが、私が説明した条件に基づいて行2を削除したいと思います! –

答えて

0

drop_duplicatesを使用できます。あなたの列名がある場合は、のは言わせて:['A', 'B', 'C', 'D', 'E']し、データフレームは、列「A」及び列「B」には重複しないdfrow 0row 1である、あなたはこれを行うことができます。

df.drop_duplicates(['C', 'D','E'], keep='first') 
関連する問題