2009-07-28 16 views
3

プロジェクトの開始段階にあり、現在はどのクローラが私たちにとって最良の選択であるかについては が不思議です。イメージクロールに最適なオープンソースの拡張可能なクローラ

私たちのプロジェクトは:

基本的に、我々は、Hadoopのを設定し、画像のためのウェブをクロールするつもりです。 次に、HadoopのMap/Reduce機能に基づいて、HDFS に保存されている画像に対して独自のインデックスソフトウェアを実行します。私たちは他のインデックスを使用しません 私たち自身よりも。

いくつかの特定の質問:

  • クローラは最高のイメージのクロール処理されますか?
  • は多数のサーバーを一緒にクロールする分散クロールシステムに最適なクローラはどれですか?

今、これらは3最良のオプション -

  • Nutchのように見える:スケールに知られています。テキスト検索ソフトウェアと密接に結びついているように思われるので、最良の選択肢のようには見えません。
  • Heritrix:また、スケール。これは現在、最良の選択肢のように見えます。
  • Scrapy:大規模で使用されていません。 URL正規化のような基本的なものがあるかどうかはわかりません。私はこれをPythonフレームワーク(私はPythonの方がJavaより好きなので)を使いたいですが、Webクローラーの高度な機能を実装しているかどうかはわかりません。

概要:

私たちは、ウェブからできるだけ多くの画像を取得する必要があります。どちらの既存のクロールフレームワークもスケーラブルで効率的ですが、イメージのみを取得するために変更するのが最も簡単なフレームワークですか?

ありがとうございます!

答えて

2

http://lucene.apache.org/nutch/

私は最も広範な使用とサポート(コミュニティサポート)で何か一緒に行くと思うだろうが、より良いアプローチでしょう。

0

Nutchは、HDFSになりたいので、良い選択です。現在作業中のHBaseインテグレーションを調べると便利です(NUTCH-650)。

最後にインデックスステップをスキップして、必要なデータを取得し、代わりにセグメント自体を見ることができます。

ただし、柔軟性のために、別のオプションはDroids:http://incubator.apache.org/droids/です。それはまだインキュベーター段階のApacheで、しかし見て価値がある。

org.apache.droids.examplesのSimpleRuntimeの例を見ると、いくつかのアイデアが得られます。おそらく、Sysoutハンドラを、あなたが望むものを与えるかもしれないHDFS上に画像を格納するものに置き換えることによって可能になるでしょう。

関連する問題