多くのエントリ(約200.000以上)を含むテキストファイル内に重複行を見つける簡単な方法があるかどうかを知りたいと思います。ソースファイルをそのまま維持します。番号が重複したエントリを持つ行を表示します重複行の検索のためのLinuxコマンドまたはスクリプト
4
6
8
9
(除く:私は出力がこのような個別のファイルにしたい
1. i got red apple
2. i got red apple in my stomach
3. i got green apple
4. i got red apple
5. i like blue bananas
6. i got red apple
7. i like blues music
8. i like blue bananas
9. i like blue bananas
:たとえば、私はこのようなツイートを持つファイルを得ました重複の最初の出現)。また、一致するパターンはまったく同じ文でなければならないことに注意してください(行1は行2とは異なり、5は7とは異なります)。
私がsort | uniq
で見つけることができるものは、文全体の文と一致するようには見えませんが、文章の最初の単語だけが一致するように見えるので、awkスクリプトがこのタスクに適しているかどうか、そうすることができます。
また、2つのファイルからこれらの行を手動で削除したいので、最初のファイルを元のままにしておく必要があります(並べ替えや並べ替えはできません)。最初のファイルにはツイートが入っていて、2番目のハットタグはこれらのツイートのハッシュタグなので、最初のオカレンスを保持して、両方のファイルで重複ツイートを含む行を削除します。
最初のファイルに実際に行番号が含まれていますか、それともイラストレーションのためのものでしょうか? –
@ベンジャミンW。それはありません。私はちょうどソートしてあなたのソリューションを推測する-k 2はありませんか? – lopsi
私の解決策では、行番号がないと仮定し、それらに 'nl'を追加します。 '-k 2 'が必要です。 –