2016-06-25 5 views

答えて

2

あなたは彼らがScrapyを作る同じ男だ

https://github.com/scrapinghub/frontera

https://github.com/scrapinghub/frontera/blob/distributed/docs/source/topics/distributed-architecture.rst

Scrapinghub

によってフロンテーラで行くことができます。

さらに古いプロジェクトであるApache Nutchもあります。 http://nutch.apache.org/

+0

MetalloyD、あなたはscrapy-cluster、distributed-fronteraの違いは何ですか?私は困惑しています。それぞれの賛否両論は何ですか? – makeapp

0

スピードを犠牲にしない限り、必要な処理量とメモリは分散処理が必要です。数十億のリンクとテラバイトのテキストと画像を扱うことを覚えておいてください。

1

分散型クローラが必要ですが、ホイールを再開発しないでください。Apache Nutchを使用してください。その目的のために作られたもので、成熟して安定しており、大規模なクロールに対処するために幅広いコミュニティで使用されています。 Python用

関連する問題