2012-04-21 5 views

答えて

0

両方の場所でいくつかの変更が必要です。

Nutchパーサーは、クロールされたコンテンツからフォーマットを切り捨てます。したがって、コンテンツがNutchセグメントに格納されると改行はなくなります。その部分を修正する必要があります。

デフォルトでは、nutch(これを実行するsolr)は索引付けのための単語ではなく文章を考慮します。だからあなたはそこでも覗く必要があります。

+0

OpenNLPを使用するためにBasicIndexingFilter.javaを変更できましたが、後でSpanQueryを使用できるように、文の間にトークンを追加しました。これはうまくいくかもしれませんが、私はフィールドとして実際の文章を索引にしようとします - あるいは文書自体...これは私が現在混乱していることです。 「文章」、「id」、「url」、「タイトル」などのフィールドを使用して各文章をドキュメント自体に索引付けしますか? - または - ドキュメントとして各Webページを索引付けし続け、デフォルトのNutchフィールド'sentences'という名前のフィールドに複数のエントリを追加しますか?それも可能ですか?私は概念的に混乱している。 – Ramsel

+0

は漠然としていますが、後者の提案がより適していると思います。あなたのsolr confディレクトリにあるSchema.xmlを見てください。そこにはフィールド定義があり、新しいフィールドを追加し、それをmultiValuedとしてマークします...これは、クロールされた複数のセンテンスを(配列として)ページ。 –

関連する問題