2017-11-20 2 views
0

私は、最初の列に重複した値に基づいてCSVから行を出力するスクリプトを作成しようとしています。列(python)の重複に基づいてCSVファイルの出力行を出力しますか?

データは次のようになります。

FULLNAME, ADDRESS_1, ADDRESS_2, CITY, STATE, ZIPCODE 
JANE DOE, MAIN STREET 1, APT 1, METROPOLIS, NEW YORK, 10000 

私はこのようなルックスを使用していたスクリプト:

import pandas as pd 

df = pd.read_csv('FILE.csv', dtype=str) 
names = df["FULLNAME"] 
df[names.isin(names[names.duplicated()])].sort_values("FULLNAME") 

print(df) 

私が午前問題は、その代わりに重複値を持つ行であります"FULLNAME"、ファイル全体が印刷されます。

任意の助けもいただければ幸いです!

答えて

0

あなたの回線は動作しますが、値を取得しているだけで、dfを設定していません。だからあなたが印刷(df)をするとき、あなたは元のリストを印刷しているだけです。

これは、あなたが働い

# assign duplicate entries to variable dupes 
dupes = df[names.isin(names[names.duplicated()])].sort_values("FULLNAME") 
print(dupes) 
+0

をやりたいでしょう!まだここで学んでいます... ありがとう! – Stefan

関連する問題