2011-12-13 20 views
-1

私はPython 3.xで作業中ですPython 3.xでWebページからテキストを抽出する

いくつかのWebページからテキストを抽出したいと思います。私にそれを許可する良いライブラリは何ですか?

ありがとう、 バリー。

+0

あなたが目指している内容に応じて、** ** re **モジュールを使用できます。 95%の人々がこのような助言を賞賛していますが、事実は、私が** re **を使ってWebページからテキストを抽出し、十分に満足していることです。 – eyquem

答えて

3
+0

私はlxmlがBeautifulSoupよりも速いと聞いていますが、いずれか一方はまだ動作するはずです。 –

+2

@John Doe _lxml_はBeatifulSoupより10倍遅く、後者はモジュール** re **よりも10倍遅いというテスト結果によると、この比較は検証されるべきですが、とにかく、比率が10でない場合、少なくとも2であると私は確信しています。 – eyquem

1

mechanizeを始めるためには、良いライブラリですが、残念ながらないのpython 3の準備ができていますが、私はlxml.html

1

で見てみることができますBeautiful Soupを使用することをお勧めします。それは、返された構造をメールに似たもの 住所。

urllib2を使用することもできますが、Beautiful Soupは多くの構文問題を処理します。

1

あなたが抽出されたテキストでを行うに欲しいものを言っていない、それはあなたがそれを得るためにに行くために喜んでいるどのくらいの努力で大きな違いになります。あなたは、サイトに関連した嫌なもの(自明でないタスク)の身体のWebページのテキストマイナスのすべてを取得しようとしている場合

は、boilerpipeを見てみましょう。これはJavaで書かれていますが、ランダムなWebページから本質的なテキストを取得するのに驚くほど良い仕事をします。

次の数週間の私の趣味の1つは、ボイラーパイプのコアロジックをPythonで作り直すことです。プロジェクトに提供する機能は必要ですが、JVMである10トンのロックを運びたくはありません。私はそれがかなり安定したらそれをリリースするだろうと確信しています。

関連する問題