Nutch - Lucene - ページのコンテンツを取得する

私はJava Nutchでいくつかのページをクロールしましたまた、索引付けされたドキュメントで実行クエリを実行できるJavaのLuceneでモジュールを作成しました。 URL、重量、タイトルなどのNutchフィールドを作成したことはわかっています。しかし、私は各ページの内容をキャプチャすることに興味があります。私はLuceneを使ってどのようにそれを行うことができ、私はナッチでクロールしたことを知っていますか？ Nutchのは、すでにあなたが別のものにしたいなぜかしらLuceneのインデックスが含まれているため、あなたは...あなたが達成したいかについての詳細を与える必要がNutch - Lucene - ページのコンテンツを取得する

おかげ

出典

2010-12-04 esteban

???? Nutchには、見ることができるjspフロントエンドがあり、いくつかのフィールドコンテンツを照会する方法を見つけることができます。キャッシュシステムが実装されているので、キャッシュされたページのデータを取得できますが、再度解析して再度インデックスを作成する必要があります。

出典

2010-12-05 19:59:06 millebii

私はJava Nutchを使用して異種サイトのニュースをクロールしましたドキュメントを作成する必要があるため、これらのページのHTMLコンテンツを取得する必要があります。これらの文書は、それぞれ新しい文書の内容を保存する必要があります。これらのドキュメントは、java api MAPLESを使用してこれらのニュースを再分類するために使用されます。私はLuceneを使用してこれらのドキュメントを管理します。ありがとうございます。 – esteban

Nutchはドキュメントデータベースではなく、実際には検索に合わせて作られています。クロールはその一部です。検索時に、私が説明したように文書のhtmlを取り出すことができます（これを行う方法については、cached.jspを参照してください）。しかし、文書をナッチの外ではなく管理したい場合や、別のクローラを見つけたい場合があります。 – millebii

Nutch - Lucene - ページのコンテンツを取得する

答えて

関連する問題