ウェブサイトをクロールおよび分析するための最良のeopen-sourceライブラリーが何であるか知りたいです。一つの例はクローラー財産代理店で、私はいくつかのサイトから情報を集めて自分のサイトに集めたいと思っています。このためには、サイトをクロールして不動産広告を抽出する必要があります。オープンソースのライブラリーまたはアプリケーションをクロールおよびデータマイニングWebサイトに移動する
3
A
答えて
8
私はすばらしいパイソンパッケージurllib2,mechanizeおよびBeautifulSoupを使用して、多くの削りをしています。
lxmlとScrapyを参照することをお勧めしますが、私はそれらを現在は使用していません(まだ治療を試す予定です)。
Perl言語にもスクレイピングに便利な機能があります。
1
PHP /カールが、私は主に仕事の、あまりにもこするのかなりのビットを行う...あなたは、Webページに直接結果を使用したい場合は特に、氏モロゾフと共通して
1
非常に強力な組み合わせですサイト。私は機械化に頼らざるを得なかった。 urllib2と組み合わせたBeautifulsoupは、常に十分であった。
私はlxmlを使用しました。これは素晴らしい方法です。しかし、数ヶ月前に試してみるとGoogleアプリで利用できなかったかもしれないと思います。
私の感謝は、MorozovがScrapyに言及してくれたことに感謝します。聞いたことがない。
0
Scrapyの他にも、Perlは素晴らしいですParselets
関連する問題
- 1. Webアプリケーション、サイトコレクション、サイト、およびライブラリデータをWebパーツのSharepoint 2007ドロップダウンリストにバインドする
- 2. データマイニングの町および都市名
- 3. MOSSサイト定義、機能および移動サイトコレクション
- 4. Webアプリケーションをオープンソースにする
- 5. IPアドレスでローカルWebサイトをクロールする
- 6. Webサイトを.NETのWebアプリケーションに移行する
- 7. Expression Webおよび/またはASP.Net
- 8. Webアプリケーション内のエンティティおよび値オブジェクト
- 9. 無料のオプション(および好ましくはオープンソース)音声をテキストに変換する(JavaやPythonのAPIで)ライブラリーをお探しのライブラリ
- 10. マウスの移動 - VBScriptおよびExcelマクロ
- 11. Microsoftのスタックからオープンソースの動的Webサイト開発に移行する最善の方法は何ですか?
- 12. ルートWebアプリケーションを別のサイトの子アプリケーションに移動する簡単な方法はありますか?
- 13. IIS 7.0で.NET 2.0および3.5 Webサイトを実行する
- 14. どのようにASP.NET Webサイト(またはWebアプリケーション)を別のWebサイトに埋め込むのですか?
- 15. オープンソースのNode.js(およびExpress)プロジェクト
- 16. WebアプリケーションJava EEおよびCSVファイル
- 17. Windows環境およびモバイルWebアプリケーション
- 18. 私はZendFrameworkを使ったオープンソースのWebアプリケーションを探します
- 19. iOSおよびAndroidアプリケーション用のリモートWebベースのテストおよびデバッグサービス
- 20. 検索エンジンと静的サイトをWebアプリケーションに移行する
- 21. Androidオーディオコントロールで前方および後方に移動する
- 22. WebサイトではなくC#Webアプリケーションのユーザーコントロールを動的にロード
- 23. 複数のWebサイト、.NET、Java、およびPHPを使用したLDAPの使用
- 24. grailsを使って3つのWebサイトをクロールする
- 25. TFS 2015でWebアプリケーションをビルドおよび展開する
- 26. Android:TableLayoutでImageViewを表示および移動する方法
- 27. Java Webアプリケーションでリソースファイルを保存およびアクセスするためのベストプラクティス
- 28. コントローラー関数をcodeigniterのライブラリーに移動する
- 29. IDEからスタンドアロンにWebアプリケーションを移動するには?
- 30. asp.net webアプリケーションは約15分後にログインページに移動します
を見なければならない、あなたはのUserAgent :: somethingorotherを使用して非常に数行でクローラを書くことができます。どのようにhtml/javascriptを分析するか、それは別の問題です。 – nflacco