2010-12-04 12 views
1

私はJava Nutchでいくつかのページをクロールしました また、索引付けされたドキュメントで実行クエリを実行できるJavaのLuceneでモジュールを作成しました。 URL、重量、タイトルなどのNutchフィールドを作成したことはわかっています。しかし、私は各ページの内容をキャプチャすることに興味があります。私はLuceneを使ってどのようにそれを行うことができ、私はナッチでクロールしたことを知っていますか? Nutchのは、すでにあなたが別のものにしたいなぜかしらLuceneのインデックスが含まれているため、あなたは...あなたが達成したいかについての詳細を与える必要がNutch - Lucene - ページのコンテンツを取得する

おかげ

答えて

0

???? Nutchには、見ることができるjspフロントエンドがあり、いくつかのフィールドコンテンツを照会する方法を見つけることができます。キャッシュシステムが実装されているので、キャッシュされたページのデータを取得できますが、再度解析して再度インデックスを作成する必要があります。

+0

私はJava Nutchを使用して異種サイトのニュースをクロールしました ドキュメントを作成する必要があるため、これらのページのHTMLコンテンツを取得する必要があります。これらの文書は、それぞれ新しい文書の内容を保存する必要があります。 これらのドキュメントは、java api MAPLESを使用してこれらのニュースを再分類するために使用されます。 私はLuceneを使用してこれらのドキュメントを管理します。 ありがとうございます。 – esteban

+0

Nutchはドキュメントデータベースではなく、実際には検索に合わせて作られています。クロールはその一部です。検索時に、私が説明したように文書のhtmlを取り出すことができます(これを行う方法については、cached.jspを参照してください)。しかし、文書をナッチの外ではなく管理したい場合や、別のクローラを見つけたい場合があります。 – millebii

関連する問題