scrapy

1熱

2答えて

私はサイトにアクセスしようとしていて、サイト内のページにリダイレクトされているリンクがないかどうかチェックしています。利用可能なサイトマップがないので、私はScrapyを使用してサイトをクロールし、各ページのすべてのリンクを取得していますが、見つかったすべてのリンクとそのステータスコードを含むファイルを出力できません。私はコードをテストするために使用しているサイトはquotes.toscrape.

-2熱

1答えて

xpathで同様の属性を取得するにはどうすればよいですか？

<div><a src="What I need" data-src="What I don't need">Demo</a></div> 私は、このXPathの（ "./ DIV/A/@ SRC"）を試したのですが、それは私にそのすべてを与えるだろうが、私はしたくありません@ data-src、どうすればいいですか？生のページはこちらです： the raw page

0熱

1答えて

Scrapy JSON出力 - 空の値

私はscrapyを使用して一連のWebページをクロールしたいと思います。しかし、jsonファイルに値を書き込もうとすると、これらのフィールドは表示されません。 import scrapy class LLPubs (scrapy.Spider): name = "linlinks" start_urls = [ 'http://www.linnaeuslink.

0熱

1答えて

もう1つのビュータグへのxpathで参照されているように

私はscrapyフレームワークを使用していますが、分析されたWebページから他のデータを読み込むことはできません。あなたはそれについて何ができるか教えてください、ありがとう。 import scrapy from scrapy.spiders import CrawlSpider,Rule from scrapy.linkextractors import LinkExtractor fro

0熱

1答えて

文字列を組み合わせるScream python

json出力がよりきれいになるように、scrapyを使用するときに値のセットを組み合わせる方法について質問があります。ここに私が持っているものがあります： import scrapy from scrapy.contrib.loader import ItemLoader from scrapy.contrib.loader.processor import TakeFirst, MapCom

0熱

1答えて

画像をsrcからLinkExtractorに移動Scler CrawlSpider

私はサイトでクロールを行い、LinkExtractorを使用してリンクからリンクをクロールし、レスポンスステータスを確認しています。また、リンク抽出プログラムを使用してサイトから画像srcを取得したいと考えています。私はコードを持っており、サイトのURLとうまく動作しますが、イメージを取得することはできません。それはコンソールにログオンしないからです。 handle_httpstatus_lis

1熱

1答えて

スクラピースパイダーを再起動できません

私はスクイピープロジェクト（Scrapy 1.4、Python 3.x）を持っています。私は条件が満たされていないときに私のスパイダーを再実行したい。 OSコマンドを使用して実行クモ、bashスクリプトで実行クモ、CrawlerProcessなどを使用して実行クモ...しかし、私はエラーを得たたびに：私は、私はすべての可能な方法を試してみました、私のspider_closed機能に def __

0熱

2答えて

治療は事前リダイレクトURLを取得

私はトラブルを起こさずに動作するクローラを持っていますが、私はstart_urlを取得する必要があり、リダイレクトされたものは取得しないでください。問題は、（field-keywords = xxxxxのような）URLにパラメータを渡し、最終的に正しいURLを取得するためにルールを使用していることです。解析機能を開始する項目は問題なく属性を取得しますが、私は（真1）を開始URLをしたいときには

-1熱

1答えて

ループしていないすべてのノードから情報を抽出します。

<ul class="products-grid"> <li class="item"> <div class="product-block"> <div class="product-block-inner"> <a href="#" title="Product A" class="product-image"><img src="#/pro

-1熱

1答えて

レスポンスには何も含まれていません

私は、warframe.marketの非常に単純なWebスクレーパーを作成しようとしているスクラップチュートリアルに従っています。私は学校から約1年のコーディング経験を持っていますが、Pythonの経験はありません。私は単にウェブサイトからアイテムの価格を取得したい。私はページをこすりするために、次を使用： scrapy shell "https://warframe.market/items/h