2016-04-06 7 views
0

Hbaseではなく、HDFSにリアルタイムでデータをダンプすることができます。ストームクローラ - テクノロジースタックとApache Nutch

私はApache Nutchが目的を解決できると聞いていましたが、悲しいことに、必要なテクノロジースタックはかなり古いものです。私はhadoopを2.6から以前のバージョンに、Elasticsearchを1.7/1.4にダウングレードしたくないので、私は暴風クローラに焦点を当てました。

私はHadoop 2.6、Elasticsearch 2.0およびHbase 1.1.3を使用していますので、誰もがストームクローラー0.9を一緒に使用できるかどうか教えてください。

+0

「stormcrawler」というタグをこの質問に追加してみませんか? –

+0

ここに「stormcrawler」というタグはありません。私はそれはまだ1500の評判を持っていないと思います。 – Gagan

答えて

2

ナウルチは、ほぼリアルタイムでフォーラムをクロールする特別な要件があるため、これを達成するための最高の技術ではありません。 Nutchはバッチで動作します。つまり、リンクが生成され、フェッチされ、解析されますが、これはその時点では1つのリンクではありません。一方、Storm CrawlerはApache Stormに基づいており、無料のオープンソースでリアルタイムにの計算システムが配布されています。

現在、Storm CrawlerはElasticsearch 1.7.2へのインデックス作成をサポートしています(バージョン2のサポート、方法はhttps://github.com/DigitalPebble/storm-crawler/tree/es2/external/elasticsearchです)。現在、HBaseへのインデックス作成はサポートされていません。それはApache Stormに基づいています。それにもかかわらず、Storm Crawlerは、低遅延でスケーラブルなWebクローラーを構築するためのリソースの集まりです.HASaseに独自のインデクサー・ボルトを書き込むことは難しくありません。リアルタイムクロールを含む残りのリソースを再利用しますあなたが必要とするもの。

+0

はい、レイテンシが大きすぎてはいけないので、私はリアルタイムに近いです。それはまた、バッチすることができます。 バージョン2.xのサポートはいつから可能ですか?カスタムインデクサボルトを書く方法の例を教えていただけますか? – Gagan

+1

現時点では、2.x ESのETAはサポートされていませんが、長すぎるべきではありません。カスタムインデクサボルトの作成に関しては、最も簡単で簡単な例はhttps://github.com/DigitalPebble/storm-crawler/blob/master/core/src/main/java/com/digitalpebble/storm/crawler/indexing/です。 stdoutに情報を表示するStdOutIndexer.java。また、外部フォルダー(aws、solr、sql)で提供されている他のインデクサーをチェックすることもできます。通常、外部のリソースにはいくつかの利点がありますが、少なくともインデクサー・ボルトが含まれています。 –

+0

ありがとうございました。 また、スタンドアロンシステムではなく分散モードで使用できますか? – Gagan

0

@ jorge-luisはすでにElasticSearch 2について返信しました。pull request for itがあり、テスト中です。 Hadoopに関しては、StormCrawlerはそれに基づいているのではなく、Apache Stormに基づいています。最後に、現在、HBaseのリソースはありませんが、追加することができます。あなたはそれを何のために使いたかったのですか?私は文書がESで索引付けされると仮定します。 NutchのcrawldbのようにURLSに関する情報を保持したいですか?もしそうなら、ESを使ってステータスを保存することもできます。詳しくはES module in StormCrawlerを見てください。

+0

PredictiveのアーキテクチャでNoSQLストレージ/ HDFSを使用したいのでHBase/HDFSが必要です後の段階でモデル化する。他の方法があれば嬉しいです。また、あなたが「ES2インテグレーション」のテストをいつ終えることができるか教えてください。 4月末までに可能でしょうか? – Gagan

+0

HBaseに書き込むためのボルトを書くことはあまり難しくありません。あるいは、私は、Webアーカイブの標準であり、Hbaseよりもスキーマを使用した方がよりオープンな、WARCファイルとしてHDFSにコンテンツを書き込むボルトに取り組んでいます。 –

+0

ESに関しては、ブランチをテストして改善に貢献してください。これが、物事を起こす最良の方法です。 Twitterのプロジェクトをたどって、大きな改善を知らせてください。 –