私はウェブサイトをクロールしました。ドロップダウンメニュー、ナビゲーションなど、ページには多くの共通のコンテンツがあります。これらのコンテンツがインデックスに登録されないようにするにはどうすればよいですか?インデックスを作成するウェブページの一部をブロックします
1
A
答えて
0
私は過去2年間、ナッチコードベースで作業していますが、これまで見てきたことはありません。コンテンツがナチュラルセグメントに入ると、ドロップダウンメニューやナビゲーションなどの部分を取り除き、必要なものだけを残しておくことができます。
あなたや他の誰かが(コードを変更せずに)それを行う方法を知っている場合は、同じものを共有してください。
1
これを行う必要がある場合に備えて、その場合に備えて、https://issues.apache.org/jira/browse/NUTCH-585にあるblacklist_whitelistプラグインを試すこともできます。
プラグインを使用すると、ブロックまたは許可する要素のリストを持つことができますが、両方ではできません。 例:
<property>
<name>parser.html.blacklist</name>
<value>noscript,div,#footer</value>
<description>
A comma-delimited list of css like tags to identify the elements which should
NOT be parsed. Use this to tell the HTML parser to ignore the given elements, e.g. site navigation.
It is allowed to only specify the element type (required), and optional its class name ('.')
or ID ('#'). More complex expressions will not be parsed.
Valid examples: div.header,span,p#test,div#main,ul,div.footercol
Invalid expressions: div#head#part1,#footer,.inner#post
Note that the elements and their children will be silently ignored by the parser,
so verify the indexed content with Luke to confirm results.
Use either 'parser.html.blacklist' or 'parser.html.whitelist', but not both of them at once. If so,
only the whitelist is used.
</description>
</property>
関連する問題
- 1. C#でウェブページをブロックするアプリケーションを作成する
- 2. 部分文字列検索のインデックスを作成しますか?
- 3. モデルの一覧を読み、新しい作成をブロックする
- 4. urllibでウェブページの一部を取得しています
- 5. mysqlの部分インデックス作成、逆インデックス作成
- 6. ウェブページがiframeを削除するのをブロックします
- 7. イメージファイルの一部を含むUIImageViewを作成します。
- 8. PHPはページの一部のjpgイメージを作成します
- 9. ユニティのメッシュの一部にトランスフォームを作成しますか?
- 10. ジャンゴ:インデックスを作成します。
- 11. postgresインデックスを作成する
- 12. Sqlalchemyは自動的に外部キーのインデックスを作成しますか?
- 13. ウェブページでタブを作成するには?
- 14. カスタムUDFをリスト上で作成してインデックスを作成する
- 15. Googleは私のサイトマップをウェブページとしてインデックス化します
- 16. ループバックで一意のインデックスを作成できません。auto-migrate()
- 17. Silverlightでテキストのブロックを作成する
- 18. インデックスを作成
- 19. UIWebView:ウェブページのコンテンツの一部を隠すには?
- 20. 一部のポートレットで異なるテーマを作成する方法
- 21. iOSの画像の一部からマスクを作成する
- 22. AS2では、外部SWFのブロックをブロックします
- 23. Antビルドの一部としてGlassfish 3ドメインを作成しますか?
- 24. インデックスを作成するためのステップバイステップガイド?
- 25. 特定のインデックスを作成する
- 26. MySQL。 "OR"クエリのインデックスを作成する
- 27. Javaのインデックスを作成する
- 28. Rails 3はインデックスにリダイレクトするメソッドを作成しますか?
- 29. RDBMSまたはLuceneインデックスでのインデックス作成を有効にしています
- 30. サイトの一部でZend_Navigationを作成する方法 - ZF 1.11.11
誰でも知っていますか? – thunder