私はNutchを初めて使用しており、エントリーしているシードリスト全体をクロールしたいと思います。Nutch 1.12とelasticsearch 1.4.1のパフォーマンスが必要です
まず:で
ビン/クロール-i -D elastic.server.url = http://localhost:9200/index_name/のURL ksu_Crawldb/30:私は、スクリプトを使用するメモリ
の2 CPUと7.5ギガバイトしかし2後それは63500文書をフェッチするだけで、CPUはフルタイムではなく50%だけ使用されました。
私は短い時間での文書の最大を取得する方法を、知りたいです。
2番目:topNと深度とラウンドの違いは何ですか?
ありがとうございました。
お返事ありがとうございます。私はそれに対処するスレッドの構成に取り組んだ。 –
私はまた、キューごとにスレッドを変更して、良い応答を得ることができました。 @Julien Nioche:情報ありがとう! –