2012-05-10 12 views

答えて

1

Nutchは、HTTPリクエストを介して目的のページのhtmlソースを取得します。今、ページのhtmlソースには、その中にコード化されたドロップダウンリストを含めることができます。それがdojo/ajaxのような複雑なスクリプトを使ってコード化されていれば、ブラウザが行うように解釈することはできません。ドロップダウンリストのアウトリンクがHTMLソースですぐに表示される場合、nutchはそれらのページをクロールします。通常のテキストコンテンツとは別に、NutchはHTMLページのJavaスクリプト部分の解析も行います。

これを確認するには、ページをbowser/wgetで開きます。メモ帳/ viのようなテキストエディタでページソースを表示します。そこにドロップダウンボックスへのアウトリンクが見えますか?はいの場合、nutchはそうでないアウトリンクをクロールします。

関連する問題