私は取得する100万のURLリストを持っています。私はこのリストをナッチの種子として使用し、Nuchのコマンドクロールのコマンドを使用してそれらを取得します。しかし、NutchはリストにないURLを自動的に取得することがわかりました。私は、-depth 1 -topN 1000000というようにクロールパラメータを設定します。しかし、動作しません。誰もこれを行う方法を知っていますか?Nutchを使用して指定されたURLリストをクロールする
0
A
答えて
3
nutch-site.xml
にこのプロパティを設定します。 (デフォルトでは真ですので、クローラにアウトリンクを追加します)
<property>
<name>db.update.additions.allowed</name>
<value>false</value>
<description>If true, updatedb will add newly discovered URLs, if false
only already existing URLs in the CrawlDb will be updated and no new
URLs will be added.
</description>
</property>
2
- (URLは行ごとに1URLを列挙されている)シード・ファイルを作成し、更新
- クロールを削除し、(前に作成した場合)ディレクトリをURLに
- 再起動クロールプロセス
コマンド
nutch crawl urllist -dir crawl -depth 3 -topN 1000000
- urllist - 問題が解決しない場合でも、あなたのNutchのフォルダーを削除して、全体のプロセスを再起動しようとするディレクトリ名
- シードファイル(URLリスト)が
関連する問題
- 1. Nutchを使用してクロールされたページの後処理
- 2. nutch 1.3のURLを再クロールする
- 3. カスタムURLを使用して指定されたビューを開く
- 4. Nutchは特定のサイトをクロールできませんでした
- 5. 指定された式を使用してリストの置換が可能です
- 6. Nutch 2.3.1でウェブサイトをクロールすると、製品リンクはスキップされますが、他のリンクはクロールされます
- 7. Scrapyを使用してWebページのURLをクロールする
- 8. Nutchで深くクロールする方法
- 9. 指定されたラベルタイプが適用されたClearCaseファイルのリスト
- 10. Apache Nutch 1.4を使用してクロールおよび解析後に取得されたHTMLドキュメントから特定のタグを取得します。
- 11. mediawiki:mediawiki APIを使用して、指定されたカテゴリのページを
- 12. 指定されたペアリストを使用してカメを描く
- 13. apache nutchを使って外部リンクをクロールするのを防ぐ方法は?
- 14. System.InvalidCastExceptionの:指定されたキャストはWatiNを使用して
- 15. 指定されたURLのウェブリクエストを定義する
- 16. 指定されたURL(春)のコントローラを決定する方法
- 17. jQuery.ajax()は、指定されたURL
- 18. Nutchクローラーが「ように」クロールしています
- 19. 指定された位置のリストを編集しますか?
- 20. Nutch 1.3でさまざまなスケジュールされたクロールの異なるサイトを再クロールするにはどうすればよいですか?
- 21. クロールのための治療にURLを指定するにはどうすればよいですか?
- 22. 指定されたプロパティを使用してオブジェクトの一般的なリストをアルファベット順に並べ替えます。
- 23. URLで指定されたドキュメントをバイト配列にアップロードする
- 24. 引数として指定された変数オブジェクトを使用する
- 25. 指定された属性を呼び出す/使用する
- 26. 指定された順序でリストをソートする方法は?
- 27. Regex .netを使用して指定された文字を置き換える
- 28. ルールを正しく使用するには、restrict_xpathsを使用してURLをクロールし、解析します。
- 29. 別のiOSアプリのURLスキームを使用してCFBundleURLIconFileで指定された画像にアクセスできますか?
- 30. リストのリスト内の指定された要素を削除します。
Nutchがシードからのアウトリンクをクロールすることは望ましくありません。 – Xiao