scrapy

0熱

1答えて

それは非常に自明な質問ですが、私はScrapyには新しいです。私は自分の問題の解決策を見つけようとしましたが、このコードで何が間違っているのか分かりません。私の目標は、指定されたウェブサイトからすべてのオペラショーをスクラップすることです。すべてのショーのデータは、1つのdiv内にあり、クラス「行 - 流体行 - パフォーマンス」を有する。私はそれを取得するためにそれらを反復しようとしていますが

0熱

1答えて

Screw Twisted ConnectionLost error

私はこの治療法を学んでおり、この問題を理解するのに苦労しています。私のクモはmacysウェブサイトをクロールしませんし、次のエラー投げ続けます：私がこれまで試した [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non

-1熱

1答えて

scarrapyを使ってangularjsのウェブサイトをクロールするには？

bookmakersのすべてのイベントのすべてのオッズを取得する方法が必要私はScrapy + Splashを使用して、サイトの最初のjavascriptで読み込まれたコンテンツを取得しています。しかし、他のすべてのオッズを得るには、 "Spagna-LigaSpagnola"、 "Italia-> Serie A"などをクリックする必要があります。どうすればいいですか？

0熱

1答えて

治療は次のURLに行きたくない

私は、別のページに行くために治療を強制することに問題があります。私は、Operaのスケジュールを別々の月に取得しようとしています。私は必要な住所が、それぞれが次のようになります。「私は月のリストを作り、それらを反復しようとしましたが、何とかScrapyはそれを無視してきた理由です月の」http://www.opera.krakow.pl/pl/repertuar/na-afiszu/ +名前。

3熱

1答えて

CrawlerProcessがCrawlSpiderでデータを保存しない

次のコードが実行され、エラーなしでファイルが作成されます。ただし、jsonファイルには保存されません。データのダウンロードを妨害していたオートスロットルをオフにしましたが、問題は解決しませんでした。 Scrapy == 1.4.0 class MySpider(CrawlSpider): name = "spidy" allowed_domains = ["cnn.com"]

1熱

1答えて

Python2のscrapyでjsonをWebから読む

WebページからJSONデータを抽出したいので、私はそれを調べました。私が必要とするデータをフォーマット以下に保存されています。どのように私はそれを変更する必要があり、 import scrapy import json class OpenriceSpider(scrapy.Spider): name = 'openrice' allowed_domains = ['w

0熱

1答えて

Scrapy Link Extractorsはベースタグをサポートしていません

HTMLにbaseタグがある場合、相対リンクは異なる方法でレンダリングされます。我々はそれを自動的に処理するために、治療でLink Extractors classが期待されました。しかし、それは起こっていないようです。この問題を解決するための標準的な治療方法は何でしょうか？

0熱

1答えて

埋め込みPDFを抽出する - PDFInterpreterError：不明な演算子： '\ x00'

Scrapyを使用して、pdfをダウンロードしてバイナリファイルをメモリに読み込んで内容を抽出します。私は、PDFがのように見えるページに埋め込まれていることを実現： <embed id="plugin" type="application/x-google-chrome-pdf" src="http:xxx/DocumentInquiry.aspx?DocumentNo=12502" strea

1熱

2答えて

scrapy CSS最後の子セレクタがテキストの選択に失敗する

ScrapyフレームワークのCSSセレクタを使用してHTMLの要素を選択/一致させようとしています。しかし、最後の子セレクタで抽出したいフィールドの1つにぶつかりました。 <td class="Table-Standard-AwardName Table-Scholarship-AwardName"> <a id="ctl00_ContentPlaceHolder1_ScholarshipDa

1熱

1答えて

治療のベストプラクティス

私は大量のデータをダウンロードするために治療を使用しています。私は、デフォルトの16同時リクエストを使用します。ガイドとして、私は共有変数でデータを収集するパイプライン方法process_itemを使用します。そしてclose_spiderにデータをSQLに保存します。大きすぎるウェブサイトを読み込むと、すべてのシステムメモリが失われます。この問題を回避するにはどうすればよいですか？私はo