2011-10-24 13 views
1

毎日サイトを取得するようにre_crawlerを設定しました。このサイトを3回取得します。 nutchにはどのようなプロパティを設定する必要がありますか?ありがとう。nutch 1.3のURLを再クロールする

答えて

2

私はあなたが最後の月に自分で解決策を見つけたと思いますが、ここにはコミュニティの回答があります。 Nutchの-site.xmlで上書きすることができ

<property> 
<name>db.default.fetch.interval</name> 
<value>30</value> 
<description>(DEPRECATED) The default number of days between re-fetches of a page. 
</description> 
</property> 

<property> 
<name>db.fetch.interval.default</name> 
<value>2592000</value> 
<description>The default number of seconds between re-fetches of a page (30 days). 
</description> 
</property> 

<property> 
<name>db.fetch.interval.max</name> 
<value>7776000</value> 
<description>The maximum number of seconds between re-fetches of a page 
(90 days). After this period every page in the db will be re-tried, no 
matter what is its status. 
</description> 

:Nutchの-default.xmlのは、定義された3つのプロパティを持っています。

関連する問題