0
2つのマスターノードを持つAmazon EMRクラスタでスケーラブルなNutchクローラを設定しようとしています。私のシードURLリストは10000のURLだけですが、私のクローラはMap-reduceジョブのフェッチフェーズで約90%で立ち往生します。それは5000のURLのためにうまくいった。私が紛失している構成はありますか?Nutchクローラが大きなURLに対してスケーリングしない
2つのマスターノードを持つAmazon EMRクラスタでスケーラブルなNutchクローラを設定しようとしています。私のシードURLリストは10000のURLだけですが、私のクローラはMap-reduceジョブのフェッチフェーズで約90%で立ち往生します。それは5000のURLのためにうまくいった。私が紛失している構成はありますか?Nutchクローラが大きなURLに対してスケーリングしない
MapReduce UIに移動し、フェッチフェーズのログを確認します。おそらく何がうまくいかなかったのかというヒントを含んでいます。
あなたのエラーログを共有してください! –