2012-05-07 7 views
2

もし私がMongo DBの100万レコードを持っていて、各レコードが5KBあれば。このデータに対してMap-Reduceを実行し、このアプリケーションに必要なRAMを見積もりたいとします。 map-reduce操作中に、このDBの読み書きは行われません。 map-reduceはいくつかのレコードを集約し、集約されたレコードの論理比較を行います。ワーキングセットを計算する手順は何ですか?

map-reduceがデータをRAMに持ち込む方法を理解したいので、ワーキングセットをどのように計算する必要があるかを理解したいと思います(例:1MM x 5Kbが自分の作業セットとなるはずです)。

答えて

1

私が理解しているように、Map-Reduceジョブの作業セットは、map()関数を実行するデータセット全体です。たとえば、データが1Mオブジェクトでmap()関数がすべてのドキュメントを調べると、作業セットは1M x 5Kになります。 map()関数にデータのサブセット(たとえば500Kオブジェクト)を渡すと、500K x 5Kになります。どちらの場合も、あらかじめ定義されたインデックスのサイズを含める必要があります。

関連する問題