私は多くのサイトを持っています。毎月いくつかの変更の内容と何らかの変更内容が毎日更新されます。 Nutch 1.3はそれらをクロールしました。私は別の予定されたクロールでそれらを再クロールしたいです。 どうすればいいですか?ありがとう。 Nutch 1.3でさまざまなスケジュールされたクロールの異なるサイトを再クロールするにはどうすればよいですか?
0
A
答えて
2
クローラの実行に使用するコマンド名を指定できるシェルスクリプトを作成し、linuxのcronコマンドを使用してこのスクリプトの実行をスケジュールすることができます。
http://www.thegeekstuff.com/2011/07/cron-every-5-minutes/
Googleでさえ、時間のいくつかの間隔の後、繰り返しウェブ全体をクロールします。
1
あなたはこのようなあなたのシードファイル内の各エントリの間隔(二つの連続クロールの間の時間)をフェッチ指定することができます。あなただけの起動間隔を設定AdaptiveFetchSchedule
上記のエントリを使用して、それぞれの再クロールの後にしている場合
http://daily.com \t nutch.fetchInterval=86400
http://montly.com \t nutch.fetchInterval=2592000
ページが変更されたかどうかに応じて、この間隔が増減されます。この場合、常に一定の間隔が必要な場合は、上記の行にnutch.fetchInterval
の代わりにnutch.fetchInterval.fixed
を使用できます。
関連する問題
- 1. nutch 1.3のURLを再クロールする
- 2. Nutch 2.3.1でウェブサイトをクロールすると、製品リンクはスキップされますが、他のリンクはクロールされます
- 3. Nutch-Hadoop:再クロールを行うURLの更新情報をクロールするにはどうすればよいですか?
- 4. Nutchは特定のサイトをクロールできませんでした
- 5. 一部のURLがクロールされないようにします
- 6. Nutchクローラーが「ように」クロールしています
- 7. Nutchで深くクロールする方法
- 8. Nutchを使用してクロールされたページの後処理
- 9. xxx.herokuapp.comにデプロイされたアプリはGoogleによってクロールされますか?
- 10. この再帰的クロール機能を反復的にするにはどうすればよいですか?
- 11. Nutchを使用して指定されたURLリストをクロールする
- 12. Googleはいつサイトを再クロールしますか?
- 13. コンテンツがクロールされないようにするための最良の手段は何ですか?
- 14. Delphiでは、通貨データタイプをさまざまな通貨でさまざまな形式で表示するにはどうすればよいですか?
- 15. 異なる深さの複数の開始URLをクロールする
- 16. Scrapy認証されたクロール
- 17. iOSアプリをさまざまな言語のFlashでローカライズするにはどうすればよいですか?
- 18. さまざまなリソースファイルで共通のViewModelを作成するにはどうすればよいですか?
- 19. Excel VBAでさまざまなオプションのシートを保護するにはどうすればよいですか?
- 20. CMSでさまざまな数のカスタムフィールドを実装するにはどうすればよいですか?
- 21. jqueryで「THIS」のさまざまなレベルにアクセスするにはどうすればよいですか?
- 22. クロールのための治療にURLを指定するにはどうすればよいですか?
- 23. アンドロイドでさまざまな解像度で作業するにはどうすればよいですか?
- 24. このコードをさまざまなウィンドウサイズに拡大するにはどうすればよいですか?
- 25. さまざまなバージョンのiOS用にアプリアイコンを作成するにはどうすればよいですか?
- 26. さまざまなタイプのユーザーアカウントを分離するにはどうすればよいでしょうか?
- 27. バックボーンアプリでさまざまなURLを指定するにはどうすればよいですか?
- 28. ZedGraphヒストグラムでさまざまな色を設定するにはどうすればよいですか?
- 29. フォームビルダークラスでさまざまなメソッドを作成するにはどうすればよいですか?
- 30. さまざまな.variablesでddplyを使用するにはどうすればよいですか?