2016-10-13 6 views

答えて

1

StormCrawlerは再帰的クロールを処理でき、URLの優先順位付けの方法はURLの格納に使用するバックエンドによって異なります。

たとえば、短いチュートリアルのREADMEとsample config fileを参照してください。デフォルトでは、スパウトはnextFetchDate(**。sort.field *)に基づいてURLをソートします。

Nutchでは、-topN引数は、次のセグメントに入れるURLの最大数を指定します(スコアリングプラグインが使用するスコアによって異なります)。 StormCrawlerではバッチ処理されないので同等のものは必要ありません。クロールは連続して実行されます。

+0

'nextFetchDate'の代わりに' inboundLinkCount 'や' linkscore 'のようなものを追加できますか?基本的に 'ウェブページがインターネット上でどの程度重要であるか'を示すいくつかのインジケータ –

+0

ステータスインデックスにインデックスされたフィールドを使用できます。このフィールドの値をどのように生成するかは、別の問題です。あなたは外部プロセスを持つことができます。 Sparkに基づいてPageRankの値を計算し、それを状態インデックスに送ります。現在StormCrawlerにはNutchのOPICに相当するものはありませんが、カスタムStatusUpdaterBolt(またはステータスストリームを使って新しいボルト)を書くことで 'inboundLinkCount'を実装することはあまり難しくありません。アウトリンクに基づくESインデックス(ステータス値がDISCOVEREDのタプル) –

関連する問題