2012-05-06 13 views
-1

xlsファイルの各行の内容を取得し、そこからrexを使用して特定のパターンを持つリストを抽出し、このリストをすべてと比較できるPythonスクリプトを作成しようとしています。現在の行の後にあるすべての行で抽出されたリストがファイルの終わりまで抽出されます。同じリストを持つ行を削除します。 注:2つのリストの単語は、順不同でも構いませんが、内容は同じです。xlsファイルの重複を取り除く

何か助けていただきありがとうございます。

答えて

1

この問題は、類似していない要素を並べ替えられていない配列から削除することと非常によく似ています。あなたがしなければならないことは、あなたの正規表現にマッチする単語の数に基づいてすべての行をハッシュし、これらのバケットの中で類似性を比較することです。

コードをかなりスケーラブルにすることができます。

 buckets={} 
    for row in rows: 
      if bucket[row.length] is None: 
       bucket[row.length]={} 
      bucket[row.length].append(row) 
     #now do your matching 
     for bucket in buckets: 
      #match and delete. 
関連する問題