膨大な量の文字列を格納して重複をチェックするための最良の方法は何ですか?が 膨大な量のユニークな文字列を保存する最も速い方法は何ですか?
- 重複チェックの速度
- 挿入する新しい文字列時間
- ストレージ容量のハードディスク上:
は、我々は、我々の優先順位について考える必要が私たちの目標が高速の重複チェックで新しい文字列を挿入する時間(ランダムアクセスまたは記憶スペースなしe matter)? 私はSQLデータベースについて考えますが、このソリューションにはDBのどれが最適ですか? MySQLのようなSQL DBを使用すれば、どのストレージエンジンが最適でしょうか? (もちろん、データ量のためにメモリを除外しなければならない)
"ランダムアクセス時間"の意味について詳しく説明できますか?データが文字列のセットである場合、「追加」、「含む」、「削除」のみが実行されます。 –
あなたの問題についてもっと詳しく教えてもらえれば、例えば実行時に文字列を使っていてもメモリに収まらなければならない場合など、リスト/ハッシュ/配列に格納するのが最善の方法です。まだ存在していない場合にのみ項目を追加し、最後に配列を書き出します(実行後に必要な場合は、やり直してください)。 – deed02392
異なる文字列のコレクションを集めようとしていますか、重複をフィルタリングしていますか?目的は何ですか?特に:重複の予想される部分量はどのくらいですか?ほとんどすべてが重複していると思いますか、まれなイベントですか?すべての新しい値をデータベースに追加しますか? –