2011-04-08 22 views
1

私は大規模なウェブサイトをnutchでクロールしてから、solrで索引付けし、結果はかなり良いです。しかし、サイト全体には、クエリの結果を索引付けして駄目にするいくつかのメニュー構造があります。solrでHTMLを索引付けする

これらのメニューのそれぞれは、DIVに明確に定義されていますので、<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>などがあります。

これらのDIVSのコンテンツをある時点で削除する必要があります。

私は、適切な場所がsolrによるインデックス作成中であることを推測していますが、方法を理解することはできません。

パターンは(<div id="calendar">).*?(<\/div>)のようになりますが、それは<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />で動作するようにはできません。どこにschema.xmlを配置するかはわかりません。

私はschema.xmlにそのパターンを入れても解析しません。編集

答えて

-1

スティックので、私はこの行を追加してい

あなたはSolrの内で利用可能なHTML異なるHTMLトークナイザで見たことがありますか?

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.HTMLStripWhitespaceTokenizerFactory

彼らはあなたがこの問題を解決する必要があります。 htmlタグそのものにインデックスを付けるべきではありません。ただし、特定のタグを一意に識別する必要がある場合は、個々のフィールドを作成し、それらのフィールドに特殊タグの内容を格納する必要があります。

+0

これはとにかく質問に答えません。 – Henry

+0

@Henry - ご質問ください。あなたが求めているものを正確に伝えるのは難しいですし、より明確な応答を得るでしょう。 – jro

+0

彼は単にhtmlソースコードのインデックス方法を知りたいと思うと思います。私はその答えにも興味があります。 – nottinhill

関連する問題