7
1つのマスター・ノードで同時に実行できるApache Nutchクローラー・インスタンスの最大数はいくらですか?Apache Nutchワーカー・インスタンスの最大数
1つのマスター・ノードで同時に実行できるApache Nutchクローラー・インスタンスの最大数はいくらですか?Apache Nutchワーカー・インスタンスの最大数
クローラインスタンスの意味を明確にしていません。クロールスクリプトを複数回並行して実行する場合は、あなたは別々のconfigs、seedなどで別個のクロールを持っています。そして、それらはHadoopクラスタのスロットを競争します。次に、クラスタ上で使用可能なマッパー/レデューサースロットの数が決まります。マッパー/レデューサースロットは、スレーブの数によって異なります。
複数のNutchクロールを並行して処理すると、処理が非常に手間がかかり、リソースが非効率的になります。代わりに、すべての論理クローラを単一の物理的なものとして実行するか、StormCrawlerを参照するようにアーキテクチャを再考してください。これはこれに適しています。