数十分に数十万のリンクを更新できるクローラを構築したいと思います。 スケジューリングを行う成熟した方法はありますか? 分散システムは必要ですか? パフォーマンスを制限する最大の障壁は何ですか? Thx。どのようにGoogleのような強力なクローラを構築するには?
-4
A
答えて
2
あなたは彼らがScrapyを作る同じ男だ
https://github.com/scrapinghub/frontera
Scrapinghub
によってフロンテーラで行くことができます。さらに古いプロジェクトであるApache Nutchもあります。 http://nutch.apache.org/
0
スピードを犠牲にしない限り、必要な処理量とメモリは分散処理が必要です。数十億のリンクとテラバイトのテキストと画像を扱うことを覚えておいてください。
1
分散型クローラが必要ですが、ホイールを再開発しないでください。Apache Nutchを使用してください。その目的のために作られたもので、成熟して安定しており、大規模なクロールに対処するために幅広いコミュニティで使用されています。 Python用
関連する問題
- 1. 私はどのようにしてJavaを使用してWebクローラを構築するのですか
- 2. オンラインマップjs apiのようなGoogleマップを構築
- 3. ニューヨークタイムズアプリのようなAndroidステータスバーを構築
- 4. Googleテストを共有ライブラリのように構築する
- 5. どのようにjavascriptライブラリを構築するには?
- 6. どのようにjavascriptでローカルストレージを構築するには?
- 7. どのようにjavascript配列を構築するには?
- 8. Webクローラを構築する
- 9. Doctrine2でクエリ継承のようなものを構築するにはどうすればよいですか?
- 10. ドッキングワークエリアの構築 - どのように構築するのですか?
- 11. どのように私は、ファイルを強調表示し、GoogleのドライブURLを構築し、私は、私はこのような多くのURLを構築しようとしている
- 12. 複雑なDjangoプロジェクトをどのように構築するのですか?
- 13. 木のような構造を構築する
- 14. Perlどのように動的なマルチレベルのハッシュ検索を構築する
- 15. ConstraintViolationExceptionをどのように構築するのですか?
- 16. WININETのHttpSendRequestメソッドをどのように構築するか
- 17. どのように静的クラスのコンストラクタを構築する
- 18. 私はこのようなレイアウトを構築したいのGoogleマップ
- 19. どのように:Ruby on Railsで基本的なサイトを構築する
- 20. Googleハングアウトのようなクロム拡張機能を構築する方法
- 21. テーブルを再構築しないようにする方法
- 22. クローラにはどのような "バージョン"のPHPページが表示されますか?
- 23. この複雑なActiveRecordクエリをどのように構築できますか?
- 24. http://www.pageflakes.com/のようなウェブサイトを構築するのに最適な選択
- 25. Scala Mapはどのように構築されますか?
- 26. 〜[]構築はどのようにJavaScriptで動作しますか?
- 27. ASP.NET Coreアプリケーションはどのように構築されますか?
- 28. MSBuildを強制的にクリーニングまたは再構築するにはどうすればよいですか?
- 29. Wordpressの管理メニューのようなメニューを構築する
- 30. C++のWindowsアプリケーションでExcelのようなデータグリッドを構築する
MetalloyD、あなたはscrapy-cluster、distributed-fronteraの違いは何ですか?私は困惑しています。それぞれの賛否両論は何ですか? – makeapp