意味のある方法で順序付けられていない比較的大きな(数百MBの)CSVファイルから重複した行を効果的に削除しようとしています。私はこれを行う手法を持っていますが、それは非常に力強いものです。私はモエがエレガントでより効果的な方法があると確信しています。効果的にPythonのCSVから重複を削除する
答えて
重複を削除するには、前に行が見えたかどうかを知らせる何らかの種類のメモリが必要です。いずれかの行またはおそらくそれらのチェックサム(はほぼ ...) のような解決策は、おそらく "ブルートフォース"の感触を持つでしょう。
行を処理する前にソートすることができれば、タスクは互いに重複しているのでかなり簡単です。
ありがとう、私は実際にSQL Serverのvarcharsにダンプし、SQLに固有の行を返すようにしました。それはブルートフォースでしたが、うまくいきました。 – TimothyAWiseman
次の例では、CSVから取得した行がリストのリストになることを前提としています。あなたは、あなたが、複製DEいるもの基づいて決定する必要があります(つまり、どの列)以下の例では、それが最初の列です(x[0]
)
def dedup(seq):
""" De-duplicate a list based on the first member of the sublist
"""
seen = set()
seen_add = seen.add
return [x for x in seq if
x[0] not in seen
and not seen_add(x[0])]
ありがとうございましたが、これはライン全体のユニークさを見ていました(本質的にフルラインのみが鍵を盗んだだけです)、私は文字列全体の一意性を探していました。あなたのテクニックは特定の状況ではうまくいくはずですが、これらのファイルは大きすぎるため、私が使用している低電力マシンではメモリ上の問題が発生しませんでした。 – TimothyAWiseman
- 1. 結果から重複を削除
- 2. ステージングファイルから重複を削除する
- 3. TStringListから重複を削除する
- 4. テキストファイルから部分的な重複を削除する
- 5. ExcelのCSVから連続した重複値を削除するVisual Basic
- 6. MYSQLテーブルからの重複を削除
- 7. 結果をグループ化して重複を削除するには
- 8. 重複の削除方法重複を削除しない
- 9. Pythonの巨大なcsvファイルから行を削除する
- 10. Pythonのリストから重複するJSONオブジェクトを削除します
- 11. 重複の削除
- 12. Python 2.7 - 重複キー値のペアを辞書から削除する
- 13. 部分的な重複をmysqlテーブルから削除するには?
- 14. リストにJSON要素を追加し、Pythonで重複を効率的に削除します
- 15. ObservableCollectionからKeyValueを最も効果的に削除しますか?
- 16. ArrayList重複削除
- 17. 重複を削除するには?
- 18. 1つの列からのみ重複を削除する
- 19. Pythonで重複しているコードを削除する
- 20. リストから重複する要素を削除する
- 21. ファイルから重複する行を削除するunixツール
- 22. リストから重複する要素を削除する
- 23. 文字列から重複する文字を削除する
- 24. mySQLデータベーステーブルから重複するユーザーエントリを削除する
- 25. テーブルから重複する行を削除する
- 26. Mapから複数のキーを効率的に削除しますか?
- 27. htmlフォームのドロップダウンリストから重複した値を削除する
- 28. PHPの配列から重複を削除する
- 29. Excelのセルから重複を削除する
- 30. Javaの文字列から重複を削除する
あなたは任意のコードを試してみましたか? – Dogbert
注文が重要でない場合は、私はちょうど良いol ''sort file |私の人生に乗ってください。 – Jacob
@cularis: 'sort -u file'は同じことをしませんか? –