2011-12-22 6 views
0

LWP :: RobotUAで自分のWebサイトをチェックするスクリプトを作成しました。私は頻繁に私のrobots.txtの要求を避けたいです。LWP :: RobotUAの独自のrobots.txtルールを指定する方法

LWP :: RobotUAのルールパラメータでそれらを指定することができますが、「すべてのページを許可」に渡すべき内容を理解していません。

my $ua = LWP::RobotUA->new(agent=>'my-robot/0.1', from=>'[email protected]', rules=> ???); 

答えて

0

さらに研究を重ねた結果、ロボットのルールを供給するための意図された方法は、WWW :: RobotRulesをサブクラス化することだと思います。

{ 
    package WWW::NoRules; 
    use vars qw(@ISA); 
    use WWW::RobotRules; 
    @ISA = qw(WWW::RobotRules::InCore); 

    sub allowed { 
     return 1; 
    } 
} 

my $ua = LWP::RobotUA->new(agent=>'my-robot/0.1', from=>'[email protected]', rules=>WWW::NoRules->new); 
1

LWP :: RobotUAはLWP ::あるrobots.txtサポートしたユーザーエージェントが追加されました。 robots.txtを要求したくない場合は、LWP :: UserAgentを使用してください。

また、LWP :: RobotUAをサブクラス化してsimple_requestメソッドをオーバーライドし、robots.txtとルール処理を削除します。

関連する問題