2017-01-23 5 views
0

私はNutchを初めて使用しており、エントリーしているシードリスト全体をクロールしたいと思います。Nutch 1.12とelasticsearch 1.4.1のパフォーマンスが必要です

まず:で

ビン/クロール-i -D elastic.server.url = http://localhost:9200/index_name/のURL ksu_Crawldb/30:私は、スクリプトを使用するメモリ

の2 CPUと7.5ギガバイトしかし2後それは63500文書をフェッチするだけで、CPUはフルタイムではなく50%だけ使用されました。

enter image description here

私は短い時間での文書の最大を取得する方法を、知りたいです。

2番目:topNと深度とラウンドの違いは何ですか?

ありがとうございました。

答えて

1

私は最近Nutchにbenchmarksを公開しましたが、リソースが最大で連続して使用されない理由について説明しました。基本的に、Apache NutchはHadoopに基づいており、バッチ駆動型です。異なる操作が連続して実行されます。 this Q&Aも参照してください。

パフォーマンスをチューニングできるさまざまな方法がありますが、重要な要素は、フェッチしているホストの多様性と公平性の設定だけです。

第2回:topNと深度とラウンドの違いは何ですか?

のtopNは、特定のURLへ ラウンドを取得するための種子からのアウトリンクの数がフェッチ/パース/更新

の反復回数です彼らのスコア 深さに基づいてフェッチを選択するために、URLの数です

奥行きとラウンドは同じであることがありますが、必ずしも同じではありません。

+0

お返事ありがとうございます。私はそれに対処するスレッドの構成に取り組んだ。 –

+0

私はまた、キューごとにスレッドを変更して、良い応答を得ることができました。 @Julien Nioche:情報ありがとう! –

関連する問題