2011-08-10 8 views
6

私はPythonを初めて使いましたので、これは初心者の質問です。Python 3のWebスクラップオプション

私はWebスクラップを含むプログラムを構築しようとしています。Python 3がPython 2.xシリーズよりもはるかに少ないWebスクレイピングモジュールしか持たないようです。

美しいスープ、機械化、および治療(私におすすめの3つのモジュール)は、すべて互換性がないようです。このフォーラム上の誰のpython 3

任意の提案をいただければ幸いを使用してウェブスクレイピングのための良いオプションを持っている場合

私は思ったんだけど。

おかげで、Pythonの3の ウィル

答えて

3

lxml.html作品、そしてあなたは、少なくとも、HTML解析取得します。

作品に含まれるBeautifulSoup 4は、Python 3をサポートする必要があります(これについてはいくつかの作業を行っています)。

+0

lxml解析は、無効なHTMLをBeautifulSoupとほぼ同様に処理します。また、インストールは高速ですが、難しくなります。 –

+1

Ubuntuのユーザは単に 'python3-lxml'パッケージをインストールすることができます。 BeautifulSoup 4はlxml(または他のパーサ)を使用し、DOMにアクセスするためのメソッドに焦点を当てます。だからlxmlの速度から利益を得るでしょう。 –