2011-01-03 12 views
0

Pythonで可読性(テキスト抽出アルゴリズム)とカスタムアルゴリズムを使用してテキストからリンクを抽出する方法はありますか?Pythonで可読性(テキスト抽出アルゴリズム)とカスタムアルゴリズムを使用してテキストからリンクを抽出する方法はありますか?

私はテキストの本文にあるリンクを抽出する方法を理解したいと思います。

1)私はPythonで可読性を使用https://github.com/gfxmonk/python-readability

2)私は何とか、物品の実際の身体内のリンクを抽出するために、元のHTMLテキストに抽出されたテキストを比較したいと思います。

答えて

2

これは、BeautifulSoupツリーを返すようです。だから、あなたのような何かをすることができるはずです:

article = page.summary() # Extract article using readability 
article.findAll("a")  # Return a list of all links in the article 
+0

BeautifulSoupは確かに行く方法です。 –

+1

@Sri:可読性は既にBeautifulSoupを使用しています。これは、ページ、コンテンツ、広告、ナビゲーションなどを除外するように設計されています。 –

関連する問題