Pythonで可読性（テキスト抽出アルゴリズム）とカスタムアルゴリズムを使用してテキストからリンクを抽出する方法はありますか？

私はテキストの本文にあるリンクを抽出する方法を理解したいと思います。

2）私は何とか、物品の実際の身体内のリンクを抽出するために、元のHTMLテキストに抽出されたテキストを比較したいと思います。

2011-01-03 user407601

これは、BeautifulSoupツリーを返すようです。だから、あなたのような何かをすることができるはずです：

article = page.summary() # Extract article using readability 
article.findAll("a")  # Return a list of all links in the article

2011-01-04 00:05:32

BeautifulSoupは確かに行く方法です。 –

@Sri：可読性は既にBeautifulSoupを使用しています。これは、ページ、コンテンツ、広告、ナビゲーションなどを除外するように設計されています。 –

答えて