どのようにGoogleのような強力なクローラを構築するには？

-4

数十分に数十万のリンクを更新できるクローラを構築したいと思います。スケジューリングを行う成熟した方法はありますか？分散システムは必要ですか？パフォーマンスを制限する最大の障壁は何ですか？ Thx。どのようにGoogleのような強力なクローラを構築するには？

2016-06-25 makeapp

あなたは彼らがScrapyを作る同じ男だ

Scrapinghub

によってフロンテーラで行くことができます。

さらに古いプロジェクトであるApache Nutchもあります。 http://nutch.apache.org/

2016-06-25 20:53:43 MetalloyD

MetalloyD、あなたはscrapy-cluster、distributed-fronteraの違いは何ですか？私は困惑しています。それぞれの賛否両論は何ですか？ – makeapp

スピードを犠牲にしない限り、必要な処理量とメモリは分散処理が必要です。数十億のリンクとテラバイトのテキストと画像を扱うことを覚えておいてください。

2016-06-25 08:35:20 KMarto

分散型クローラが必要ですが、ホイールを再開発しないでください。Apache Nutchを使用してください。その目的のために作られたもので、成熟して安定しており、大規模なクロールに対処するために幅広いコミュニティで使用されています。 Python用

2016-06-25 20:49:59

答えて