私は限られた数のWebサイトを索引付けする専用の検索エンジンWebサイトを構築しようとしています。私が思いついた解決策は以下のとおりです。Nutchへの代替Webクローラー
ウェブクローラとしてのNutchを使用して- 、検索エンジンとしてのSolrを使用して
- 、
- フロントエンドおよびサイトのロジックは、自動改札で符号化されます。
問題はNutchがかなり複雑で、詳細なドキュメント(書籍、最近のチュートリアルなど)が存在しないにもかかわらず、カスタマイズするソフトウェアの大きな部分だということです。今
質問:
- サイトの穴の考え方についての任意の建設的な批判?
- Nutch(サイトのクロール部分)に代わって、良い選択肢がありますか?
おかげ
私たちは何年もeveythingを試しています:Nutch、Heritrix、Storm Crawler、crawler4j、自社のクローラしかし、そこには本当に印象的な選択肢が1つしかありません。私たちのチーム全体は、Mixnodeによって誓っています。 –