2017-11-08 5 views
0

ニュースサイトをクロールする必要があります。私は、Hadoop 2.7.4とHbaseクラスタを使ってapache Nutch 2.3.1を設定しました。私はsolr 6.6.1経由で検索を提供する必要があります。いくつかのウェブサイトをクロールした後、私はNutchがページ内のすべてをクロールすることを観察しました。ニュースサイトでは、最新のニュースやトップニュースなどを含むサイドバーがあります。これらのサイドバーのコンテンツは時間とともに変化しました。 Nutchに主要なストーリーのコンテンツをクロールさせ、そのようなサイドバーを避けるように求める方法はありますか?Apache Nutch 2.3.1をサイドバーではなく記事コンテンツをクロールする方法を制限する方法

答えて

1

Nutch 2.xを使用しているので、これは少し難しいです.Nutch 1.xでは、Tikaのボイラパイプの実装を使用できます。しかし残念ながら、まだ2.xブランチには移植されていません。

関連する問題