フォームの上にnutchクロールはありませんか？

もしNutch 1.4がフォームの外に出てきたのかどうか疑問に思っていました。たとえば、ドロップダウンリストがある場合、ドロップダウンリストの項目から結合されたすべての可能なページを取得しようとしますか？フォームの上にnutchクロールはありませんか？

ありがとう

出典

2012-05-10 breakdown1986

Nutchは、HTTPリクエストを介して目的のページのhtmlソースを取得します。今、ページのhtmlソースには、その中にコード化されたドロップダウンリストを含めることができます。それがdojo/ajaxのような複雑なスクリプトを使ってコード化されていれば、ブラウザが行うように解釈することはできません。ドロップダウンリストのアウトリンクがHTMLソースですぐに表示される場合、nutchはそれらのページをクロールします。通常のテキストコンテンツとは別に、NutchはHTMLページのJavaスクリプト部分の解析も行います。

これを確認するには、ページをbowser/wgetで開きます。メモ帳/ viのようなテキストエディタでページソースを表示します。そこにドロップダウンボックスへのアウトリンクが見えますか？はいの場合、nutchはそうでないアウトリンクをクロールします。

出典

2012-05-11 03:16:33

フォームの上にnutchクロールはありませんか？

答えて

関連する問題