2011-07-31 7 views
1

各クロールされたドメインのユーザーエージェント文字列を変更する必要があります。私は標準のNutchクロールユーティリティーコードを使用して、時間ごとに1つのドメインをクロールします。マルチスレッドモードで開始され、多くのドメインをクロールします。ドメイン文字列[botname] + domainIDに渡す必要がありますが、実装する方法がわかりません。Nutch 1.3:ユーザーエージェントを変更する

答えて

1

ユーザエージェントは設定ファイル(nutch-site.xml)に表示されるため、特定のドメインのユーザエージェントを変更する可能性はありません。

クロールするドメインごとにnutchのインスタンスを作成することをお勧めします。各インスタンス内で、クロールするドメインに一致するURLフィルタ、シードURL、およびユーザーエージェントを設定します。

これにより、カスタム設定で各クロールを実行できるようになります。

歓声マナ

関連する問題