2015-12-17 12 views

答えて

1

クローラインスタンスの意味を明確にしていません。クロールスクリプトを複数回並行して実行する場合は、あなたは別々のconfigs、seedなどで別個のクロールを持っています。そして、それらはHadoopクラスタのスロットを競争します。次に、クラスタ上で使用可能なマッパー/レデューサースロットの数が決まります。マッパー/レデューサースロットは、スレーブの数によって異なります。

複数のNutchクロールを並行して処理すると、処理が非常に手間がかかり、リソースが非効率的になります。代わりに、すべての論理クローラを単一の物理的なものとして実行するか、StormCrawlerを参照するようにアーキテクチャを再考してください。これはこれに適しています。