マップリダクションで以下の処理を行うアルゴリズムを試しています。私はたくさんのオブジェクトと所有者のユーザーIDを受け取ります。言い換えれば、私はペアの束を受け取る:スレッシュホールドフィルタリングによるコレクションのグループ化
(object, uid)
私はcount
は、オブジェクトがリスト内に出現する回数を指しペア(object,count)
のリスト、で終わるしたいです。注意点は、私たちは次のようにすべてをフィルタリングする必要があるだろうということです:我々は唯一のオブジェクトは、少なくともn
異なるUIDのために繰り返されるように、オブジェクトのペアが含まれている必要があり
。
繰り返し回数の合計が少なくともm個になるようにオブジェクトを含める必要があります。
オブジェクトとユーザーはすべて整数で表されます。問題は、各(object,uid)
のペアを(object, 1)
に変換し、次に2番目の整数を合計することでそれらを一緒に減らすことは些細なことです。次に、(2)のしきい値に達していないすべてのものをフィルタリングすることができました。しかし、この時点では、(1)でフィルタリングするのに必要な情報が失われてしまいました。これは私がこれにどのように組み込むべきかわかりません。誰でも何か提案がありますか?