私は大規模なウェブサイトをnutchでクロールしてから、solrで索引付けし、結果はかなり良いです。しかし、サイト全体には、クエリの結果を索引付けして駄目にするいくつかのメニュー構造があります。solrでHTMLを索引付けする
これらのメニューのそれぞれは、DIVに明確に定義されていますので、<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>
などがあります。
これらのDIVSのコンテンツをある時点で削除する必要があります。
私は、適切な場所がsolrによるインデックス作成中であることを推測していますが、方法を理解することはできません。
パターンは(<div id="calendar">).*?(<\/div>)
のようになりますが、それは<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />
で動作するようにはできません。どこにschema.xmlを配置するかはわかりません。
私はschema.xmlにそのパターンを入れても解析しません。編集
これはとにかく質問に答えません。 – Henry
@Henry - ご質問ください。あなたが求めているものを正確に伝えるのは難しいですし、より明確な応答を得るでしょう。 – jro
彼は単にhtmlソースコードのインデックス方法を知りたいと思うと思います。私はその答えにも興味があります。 – nottinhill