ソース、URLを訪問した検索:がトップ10最も訪問されたURLを見つけ、Googleの面接の質問トップ10の最も頻繁には、データがネットワーク
コンピュータの大規模なネットワークを考えると、訪問したURLの各保持ログファイルを。
多くの大きい<string (url) -> int (visits)> maps
があります。
< string (url) -> int (sum of visits among all distributed maps)
を計算し、組み合わせマップのトップ10を取得します。
主な制約:マップがネットワーク経由で送信するには大きすぎます。 MapReduceを直接使用することはできません。
私は今、大規模な分散システム上でprocessiongを実行する必要があるこのタイプの質問に出くわしました。私は思う、または適切な答えを見つけることができません。
私が考えることができるのは、何らかの形でまたは他の方法で、与えられた制約に違反するブルートフォースです。
map-reduceの問題はhttps://en.wikipedia.org/wiki/MapReduceのように見えます – matcheek
map-reduceの問題のようです。 WebページのURIをマップしてから、同じURIのヒットをすべて追加して、のペア – noMAD
@noMAD:updateの制約を参照してください。 – Spandan