1
私はJava Nutchでいくつかのページをクロールしました また、索引付けされたドキュメントで実行クエリを実行できるJavaのLuceneでモジュールを作成しました。 URL、重量、タイトルなどのNutchフィールドを作成したことはわかっています。しかし、私は各ページの内容をキャプチャすることに興味があります。私はLuceneを使ってどのようにそれを行うことができ、私はナッチでクロールしたことを知っていますか? Nutchのは、すでにあなたが別のものにしたいなぜかしらLuceneのインデックスが含まれているため、あなたは...あなたが達成したいかについての詳細を与える必要がNutch - Lucene - ページのコンテンツを取得する
おかげ
私はJava Nutchを使用して異種サイトのニュースをクロールしました ドキュメントを作成する必要があるため、これらのページのHTMLコンテンツを取得する必要があります。これらの文書は、それぞれ新しい文書の内容を保存する必要があります。 これらのドキュメントは、java api MAPLESを使用してこれらのニュースを再分類するために使用されます。 私はLuceneを使用してこれらのドキュメントを管理します。 ありがとうございます。 – esteban
Nutchはドキュメントデータベースではなく、実際には検索に合わせて作られています。クロールはその一部です。検索時に、私が説明したように文書のhtmlを取り出すことができます(これを行う方法については、cached.jspを参照してください)。しかし、文書をナッチの外ではなく管理したい場合や、別のクローラを見つけたい場合があります。 – millebii