2011-12-20 10 views
0

特定の要素をページ応答から削除してから、nutchに渡します。 は具体的には、私はすなわちApache nutch:解析する前にDOMを操作する

<div class="noindex">I shall not be indexed</div> 

と私のページの一部をマークしたい「私はインデックスを作成してはならない」ように、Nutchの解析の前にそれらを削除したいその後NutchDocumentには存在しません。私は、現在、インデックス内のすべてのドキュメントに存在するため、ナビゲーション、ヘッダー、フッターのコンテンツを囲むことを計画しています。

おかげで、 ポール

答えて

3

あなたはそれを行うためのいくつかのalternativerを持っている:

関連する問題