2009-05-18 14 views
2

私は小さなWebクローラーを構築していますが、誰かが実際の実装(ちょうどクロール、検索、ランキング、分類なし、クロール、キス:)について興味深い情報を持っていたのかどうかは疑問でした。Webクローリング手法に関する情報

私はすでにO'Reilly「Spidering hacks」とNo Starch Press「Webbots、spiders、screen scrapers」を記録しています。これらの本は優れていますが、物事をシンプルに保つ傾向があり、スケーリング、データの保存、並行作業、およびその他の高度なトピックについて詳しく説明していません。もちろん、私は既存のオープンソースクローラのコードを見直すことができましたが、それはもう一方の端にあるでしょう(C++クローラは複雑に見えます...)。私はいくつかの面白い/ aditionnal情報を探しています。

ご協力いただきありがとうございます。

答えて

2

Webクローラーの実装の詳細については、既存のオープンソースの実装を検討することができます。ここにはOpen Source Crawlers in Javaのリストがあります。これらのプロジェクトのほとんどは非アクティブです。しかし、インターネットアーカイブのクローラHeritixとApache Nutchは、学ぶべきたくさんの成熟したアクティブなプロジェクトです。

関連する問題