多くの重複排除ライブラリまたはアプリケーションでは、ファイルバイナリからチャンクを切断する高速ハッシュアルゴリズムにRabin Karpローリングハッシュアルゴリズムが適用されています。
私の質問は、なぜRabin Karpアルゴリズムがチャンクのカットによく使われるのでしょうか?
私はそれが高速のハッシュアルゴリズムを圧延知っているが、私の質問はより基本的です。
チャンクをカットする方法はたくさんあります。
たとえば、1バイト(mod演算なし)を値と比較してチャンクをカットすると、平均で256バイトのチャンクになります。
9ビットを比較すると、平均で512バイトのチャンクになります。
Rabin Karpなどのローリングハッシュアルゴリズムと同様のハッシュ結果を持たない最後の数ビットを単純に比較しませんか? Rabin-Karpアルゴリズムと重複排除の関係
ラビンカープローリングハッシュは、異なるサイズの部分にファイルをカットチャンキングアルゴリズムである
- :