2016-06-17 3 views
4

これはサブキーPassing arguments to process.crawl in Scrapy pythonですが、著者は答えをマークしました(これは私が尋ねるサブクエリには答えません)。ここでjsonにデータをエクスポートするためにprocessprocess.crawl()を処理する

は私の問題だ:私は私が/欲しい代わりscrapy crawl mySpider -a start_urls(myUrl) -o myData.json
を使用することはできません私はすでに引数を渡すためにいくつかの方法を考え出した(と、とにかく、それは私がリンクされ、質問に答えている)が、私はできませんcrawlerProcess.crawl(spider)を使用する必要がありますどのように私はデータをmyData.jsonにダンプするように指示するはずです... -o myData.json部分
誰かが提案を得ましたか?それとも、私はそれがどのように働くはずであるかを理解していないのですか?

crawlerProcess = CrawlerProcess(settings) 
crawlerProcess.install() 
crawlerProcess.configure() 

spider = challenges(start_urls=["http://www.myUrl.html"]) 
crawlerProcess.crawl(spider) 
#For now i am just trying to get that bit of code to work but obviously it will become a loop later. 

dispatcher.connect(handleSpiderIdle, signals.spider_idle) 

log.start() 
print "Starting crawler." 
crawlerProcess.start() 
print "Crawler stopped." 

答えて

5

あなたが設定でそれを指定する必要があります:ここで

はコードである

process = CrawlerProcess({ 
    'FEED_URI': 'file:///tmp/export.json', 
}) 

process.crawl(MySpider) 
process.start() 
+0

しかし、あなたはSachin_urls.csv -o '例えば、いくつかの引数を渡すために、インスタンスのためにこれを使用することはできません-t csv -L INFO --logfile Sachin.log'。これは、 'scrap crawl -a -o Sachin_urls.csv -t csv myspidername -L INFO --logfile Sachin.log 'を使用するときちんと動作します。すべてのポインタ? – hAcKnRoCk

関連する問題