2009-04-17 11 views
3

ウェブサイトをクロールおよび分析するための最良のeopen-sourceライブラリーが何であるか知りたいです。一つの例はクローラー財産代理店で、私はいくつかのサイトから情報を集めて自分のサイトに集めたいと思っています。このためには、サイトをクロールして不動産広告を抽出する必要があります。オープンソースのライブラリーまたはアプリケーションをクロールおよびデータマイニングWebサイトに移動する

答えて

8

私はすばらしいパイソンパッケージurllib2,mechanizeおよびBeautifulSoupを使用して、多くの削りをしています。

lxmlScrapyを参照することをお勧めしますが、私はそれらを現在は使用していません(まだ治療を試す予定です)。

Perl言語にもスクレイピングに便利な機能があります。

+0

を見なければならない、あなたはのUserAgent :: somethingorotherを使用して非常に数行でクローラを書くことができます。どのようにhtml/javascriptを分析するか、それは別の問題です。 – nflacco

1

PHP /カールが、私は主に仕事の、あまりにもこするのかなりのビットを行う...あなたは、Webページに直接結果を使用したい場合は特に、氏モロゾフと共通して

1

非常に強力な組み合わせですサイト。私は機械化に頼らざるを得なかった。 urllib2と組み合わせたBeautifulsoupは、常に十分であった。

私はlxmlを使用しました。これは素晴らしい方法です。しかし、数ヶ月前に試してみるとGoogleアプリで利用できなかったかもしれないと思います。

私の感謝は、MorozovがScrapyに言及してくれたことに感謝します。聞いたことがない。

0

Scrapyの他にも、Perlは素晴らしいですParselets

関連する問題