2016-08-22 8 views
1

私は、postgresqlデータベースに格納されている30億の文字列を持っています。周波数マップを作成して、100回未満または10万回以上発生する文字列を破棄することができます。どのような種類のデータ構造を使用する必要がありますか?私はある種のブルームフィルタを考えています。数十億の文字列のカウント頻度

答えて

0

HyperLogLogを使用すると、小さなメモリフットプリントでマルチセットのカーディナリティを推定できます。

ここには、HyperLogLogのJava実装であるjava-hllを使用するexampleがあります。あなたがjavaがあなたのために働かないなら、あなたは他の言語での実装のためにgithubを検索します。

また、standalone implementationを使用することもできます。

関連する問題