2012-01-04 7 views
2

私はアグリゲーターを作成しています。私は最初のツールセットとしてscrapyから始めました。 最初に私はいくつかのスパイダーしか持っていませんでしたが、プロジェクトが成長するにつれて、私は数多くのサイトを掻き集めるので、何百、何千もの異なるスパイダーがあるようです。 これらのスパイダーを管理するには、一度クロールする必要があるウェブサイトと、定期的にクロールする必要があるウェブサイトがあります。 非常に多くのサイトを扱う際には、まだ治療法は優れていますか、他の技術をお勧めしますか?複数のスパイダーをscrapyで管理する

+1

[Scrapyd](http://doc.scrapy.org/en/latest/topics/scrapyd.html)をご覧ください。 – reclosedev

答えて

0

scrapelyというプロジェクトは、スクラピーの作成者からチェックアウトすることができます。しかし、私が知る限り、javascriptを含むサイトの解析には適していません(正確には、解析されたデータがjavascriptによって生成されない場合)。

関連する問題