scrapy

    0

    1答えて

    それは非常に自明な質問ですが、私はScrapyには新しいです。私は自分の問題の解決策を見つけようとしましたが、このコードで何が間違っているのか分かりません。 私の目標は、指定されたウェブサイトからすべてのオペラショーをスクラップすることです。すべてのショーのデータは、1つのdiv内にあり、クラス「行 - 流体行 - パフォーマンス」を有する。私はそれを取得するためにそれらを反復しようとしていますが

    0

    1答えて

    私はこの治療法を学んでおり、この問題を理解するのに苦労しています。私のクモはmacysウェブサイトをクロールしませんし、次のエラー投げ続けます:私がこれまで試した [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non

    -1

    1答えて

    bookmakersのすべてのイベントのすべてのオッズを取得する方法が必要 私はScrapy + Splashを使用して、サイトの最初のjavascriptで読み込まれたコンテンツを取得しています。しかし、他のすべてのオッズを得るには、 "Spagna-LigaSpagnola"、 "Italia-> Serie A"などをクリックする必要があります。 どうすればいいですか?

    0

    1答えて

    私は、別のページに行くために治療を強制することに問題があります。私は、Operaのスケジュールを別々の月に取得しようとしています。 私は必要な住所が、それぞれが次のようになります。「私は月のリストを作り、それらを反復しようとしましたが、何とかScrapyはそれを無視してきた理由です月 の」http://www.opera.krakow.pl/pl/repertuar/na-afiszu/ +名前。

    3

    1答えて

    次のコードが実行され、エラーなしでファイルが作成されます。ただし、jsonファイルには保存されません。 データのダウンロードを妨害していたオートスロットルをオフにしましたが、問題は解決しませんでした。 Scrapy == 1.4.0 class MySpider(CrawlSpider): name = "spidy" allowed_domains = ["cnn.com"]

    1

    1答えて

    WebページからJSONデータを抽出したいので、私はそれを調べました。私が必要とするデータをフォーマット以下に保存されています。どのように私はそれを変更する必要があり、 import scrapy import json class OpenriceSpider(scrapy.Spider): name = 'openrice' allowed_domains = ['w

    0

    1答えて

    HTMLにbaseタグがある場合、相対リンクは異なる方法でレンダリングされます。我々はそれを自動的に処理するために、治療でLink Extractors classが期待されました。しかし、それは起こっていないようです。 この問題を解決するための標準的な治療方法は何でしょうか?

    0

    1答えて

    Scrapyを使用して、pdfをダウンロードしてバイナリファイルをメモリに読み込んで内容を抽出します。私は、PDFがのように見えるページに埋め込まれていることを実現: <embed id="plugin" type="application/x-google-chrome-pdf" src="http:xxx/DocumentInquiry.aspx?DocumentNo=12502" strea

    1

    2答えて

    ScrapyフレームワークのCSSセレクタを使用してHTMLの要素を選択/一致させようとしています。しかし、最後の子セレクタで抽出したいフィールドの1つにぶつかりました。 <td class="Table-Standard-AwardName Table-Scholarship-AwardName"> <a id="ctl00_ContentPlaceHolder1_ScholarshipDa

    1

    1答えて

    私は大量のデータをダウンロードするために治療を使用しています。私は、デフォルトの16同時リクエストを使用します。 ガイドとして、私は共有変数でデータを収集するパイプライン方法process_itemを使用します。そしてclose_spiderにデータをSQLに保存します。 大きすぎるウェブサイトを読み込むと、すべてのシステムメモリが失われます。 この問題を回避するにはどうすればよいですか? 私はo