私はCrawlSpiderで治療を使用しているウェブサイトのクローラを作成しています。URLに基づいて重複したリクエストをフィルタリングする方法
Scrapyは、URLに基づいて重複した要求をフィルタリングする組み込みの複製要求フィルタを提供します。また、私はルール CrawlSpiderのメンバーを使ってリクエストをフィルタリングできます。私が何をしたいか
のような要求をフィルタリングすることである:私はすべてののIDを蓄積セットを持っている場合、私はすでに、今
http:://www.abc.com/p/xyz.html?id=1234&refer=4567
NOTE: refer is a parameter that doesn't affect the response I get, so I don't care if the value of that parameter changes.
を訪問している場合は
http:://www.abc.com/p/xyz.html?id=1234&refer=5678
をこの機能を実現するには、コールバック関数parse_item(私のコールバック関数)を無視することができます。
しかし、それは私がまだ必要ないときに、少なくともそのページを取得していることを意味します。
私は、それがURLに基づいて特定のリクエストを送信すべきではないと言うことをスクラピーに伝える方法は何ですか?
まさに私が望むもの、Thx。 – thinker007
私はクモフォルダ内のファイルにコードを置くが、私はこのエラー 'dupefilter = dupefilter_cls.from_settings(設定) exceptions.AttributeErrorました:「モジュール」オブジェクトが gs'' –
おかげで、この作品from_settin何の属性」を持っていませんが私のカスタムフィルタクラスから 'spider'オブジェクトにアクセスするにはどうしたらいいですか? – wolfgang