私は、すべてのプレーンリンク、または文字列のすべてのアンカータグを解析する他の質問を見たことがありますが、その両方を行うものはありません。文字列からすべてのアンカータグまたはリンクを抽出する正規表現を作成するにはどうすればよいですか?
理想的には、正規表現が(私は、Pythonを使用しています)、このような文字列を解析することができるようになります:
>>> import re
>>> content = '
<a href="http://www.google.com">http://www.google.com</a> Some other text.
And even more text! http://stackoverflow.com
'
>>> links = re.findall('some-regular-expression', content)
>>> print links
[u'http://www.google.com', u'http://stackoverflow.com']
はそれが重複したリンクが返されを生じない正規表現を生成することが可能です?これを行うより良い方法はありますか?
私はPythonの人ではないですので、私は何を使うべきかを正確に伝えることはできませんが、HTMLを解析するための正規表現を探し始めるたびに、答えは正規表現を使用しません!あなたのためにHTMLを解析する良いモジュールを見つけてください。 – Nick
すべての可能なURLを検出しようとしていますか、より一般的なものだけを検出しようとしていますか? RegexはすべてのURLに完全にマッチさせるのは難しいビジネスです - http://mathiasbynens.be/demo/url-regex –
@ShawnChin URLを検証することはそれほど難しくありませんか? ? –