scrapy

    1

    2答えて

    私はサイトにアクセスしようとしていて、サイト内のページにリダイレクトされているリンクがないかどうかチェックしています。利用可能なサイトマップがないので、私はScrapyを使用してサイトをクロールし、各ページのすべてのリンクを取得していますが、見つかったすべてのリンクとそのステータスコードを含むファイルを出力できません。私はコードをテストするために使用しているサイトはquotes.toscrape.

    -2

    1答えて

    <div><a src="What I need" data-src="What I don't need">Demo</a></div> 私は、このXPathの( "./ DIV/A/@ SRC")を試したのですが、それは私にそのすべてを与えるだろうが、私はしたくありません@ data-src、どうすればいいですか? 生のページはこちらです: the raw page

    0

    1答えて

    私はscrapyを使用して一連のWebページをクロールしたいと思います。しかし、jsonファイルに値を書き込もうとすると、これらのフィールドは表示されません。 import scrapy class LLPubs (scrapy.Spider): name = "linlinks" start_urls = [ 'http://www.linnaeuslink.

    0

    1答えて

    私はscrapyフレームワークを使用していますが、分析されたWebページから他のデータを読み込むことはできません。あなたはそれについて何ができるか教えてください、ありがとう。 import scrapy from scrapy.spiders import CrawlSpider,Rule from scrapy.linkextractors import LinkExtractor fro

    0

    1答えて

    json出力がよりきれいになるように、scrapyを使用するときに値のセットを組み合わせる方法について質問があります。ここに私が持っているものがあります: import scrapy from scrapy.contrib.loader import ItemLoader from scrapy.contrib.loader.processor import TakeFirst, MapCom

    0

    1答えて

    私はサイトでクロールを行い、LinkExtractorを使用してリンクからリンクをクロールし、レスポンスステータスを確認しています。 また、リンク抽出プログラムを使用してサイトから画像srcを取得したいと考えています。私はコードを持っており、サイトのURLとうまく動作しますが、イメージを取得することはできません。それはコンソールにログオンしないからです。 handle_httpstatus_lis

    1

    1答えて

    私はスクイピープロジェクト(Scrapy 1.4、Python 3.x)を持っています。私は条件が満たされていないときに私のスパイダーを再実行したい。 OSコマンドを使用して実行クモ、bashスクリプトで実行クモ、CrawlerProcessなどを使用して実行クモ...しかし、私はエラー を得たたびに:私は、私はすべての可能な方法を試してみました、私のspider_closed機能に def __

    0

    2答えて

    私はトラブルを起こさずに動作するクローラを持っていますが、私はstart_urlを取得する必要があり、リダイレクトされたものは取得しないでください。 問題は、(field-keywords = xxxxxのような)URLにパラメータを渡し、最終的に正しいURLを取得するためにルールを使用していることです。 解析機能を開始する項目は問題なく属性を取得しますが、私は(真1)を開始URLをしたいときには

    -1

    1答えて

    <ul class="products-grid"> <li class="item"> <div class="product-block"> <div class="product-block-inner"> <a href="#" title="Product A" class="product-image"><img src="#/pro

    -1

    1答えて

    私は、warframe.marketの非常に単純なWebスクレーパーを作成しようとしているスクラップチュートリアルに従っています。私は学校から約1年のコーディング経験を持っていますが、Pythonの経験はありません。私は単にウェブサイトからアイテムの価格を取得したい。私はページをこすりするために、次を使用: scrapy shell "https://warframe.market/items/h