scrapy

0熱

2答えて

ImportError：No pipeline - Scrapy/PyInstaller

私はScrapyプロジェクトからexeファイルを作成しようとしています。エラーを避けるために数十の隠れたインポートを追加しなければなりませんでしたが、現在はImportError: No module named pipelinesを取得しており、何をすべきかわかりません。 bot/ engine_bot/ engine_bot/ spiders/

1熱

1答えて

Scrapyプロジェクト（または最大サイズ）のRotatingFileHandlerを設定する方法

私は、ログファイルが1048576バイトを超えないようにしようとしています。 ScrapyはPython loggingモジュールを使用しているので、ScrapyのデフォルトのFileHandlerをRotatingFileHandlerに変更しようとしています。 Scrapyのドキュメントや設定でこれについて何も見つかりませんでした。私の考えは、__init__()スパイダーの方法をオーバーライ

0熱

1答えて

停止Scrapyスパイダーは、昨日

このコードは、私のScrapyスパイダーの一部です。私の質問は、このコード/ロジックを持っている最良の場所ですか？私は他の場所に実装する方法がわかりません。パイプラインで実装できるかもしれませんが、AFAIKパイプラインはスクレイピングが完了した後に評価されるので、必要のないすべての追加を削り取る必要があります。スケールは昨日から5追加され、ページ全体で500追加されます。コードをパイプ

0熱

1答えて

Scrapyでは、正規表現の2つのグループを2つの異なるフィールドに抽出する方法は？

私はhttps://www.trulia.com/property/1072559047-1860-Lombard-St-San-Francisco-CA-94123のようなTrulia.comで販売されている不動産のページを掻き集めるために蜘蛛を書いていますtrulia;現在のバージョンはhttps://github.com/khpeek/trulia-scraperにあります。を使用し、re

0熱

1答えて

Scrapinghub shubのデプロイメントエラー - エラー：展開に失敗しました（400）：プロジェクト：non_field_errors

クラウドに展開して次のエラーが発生するときに試してみます。 Error: Deploy failed (400): project: non_field_errors 現在の設定は次のとおりです。 def __init__(self, startUrls, *args, **kwargs): self.keywords = ['sales','advertise','contac

0熱

2答えて

Tweepyのインストールに問題がある

Tweepyモジュールをインストールしようとしていますが、エラーが発生しています。以下は、私は、64ビットのPythonのバージョン3.7を使用しています私のコードは、コマンドプロンプトである pip install tweepy. 、ここでは私の誤りで、 Could not find a version that satisfies the requirement tweepy (from

0熱

1答えて

Linkextractor in Scrapy、pageing and 2 depth link

LinkextractorがScrapyでどのように動作しているかを理解しようとしています。は私が達成しようとしています：スタートページにを-follow改ページ - 検索のURL、見つかったリンクページ-inパターン内のすべてのリンクをスキャンし、そのページのマッチングの別のリンクをたどりますパターン等の改ページを見てからそのページをスクラップ class ToScrapeMyspider

0熱

1答えて

インポートエラー：コマンドプロンプトでscrapyを使用するとDLLが失敗しました

scrapyコマンドを使用してフォルダを作成しようとすると、以下の問題が発生します。私はこの問題を捜し求め、解決策を見つけましたhttps://groups.google.com/forum/#!topic/scrapy-users/8N6V_OGUqtI 私はそこに提供されたステップを試しましたが、私はまだこの問題を抱えています。これを解決するための助けがあれば幸いです。 (C:\Users\

1熱

2答えて

コールバック後に配列がリセットされることを避けるにはどうすればよいですか？

私は、スクラピーを使用してウェブサイトからレビューデータをスクラップします。コードは以下の通りです。問題は、プログラムが次のページに移動するたびに、コールバックによって開始され、レコード[]がリセットされることです。配列は再び空になり、records []に保存されたすべてのレビューは失われます。この結果、私のCSVファイルを開くと、最後のページのレビューのみが取得されます。私が望むのは、すべ

0熱

1答えて

'scrapy crawl'を実行しようとするとエラーが発生する

'scrapy crawl word'を実行した後、エラーが発生します。私はScdaを使用してfdaのウェブサイトを削っています。チュートリアルをオンラインで続けています。私のコードは次のとおりです： import scrapy class WordSpider(scrapy.Spider): name = "word" def start_requests(self):