-1
複数の異なる行にあるときこれらのタグの間の内容を抽出する方法はありますか?複数行の正規表現タグ
<link>
https://widget.websta.me/rss/n/bleh
</link>
私が試した:あなたがにBeautifulSoup
を使用することができます^
複数の異なる行にあるときこれらのタグの間の内容を抽出する方法はありますか?複数行の正規表現タグ
<link>
https://widget.websta.me/rss/n/bleh
</link>
私が試した:あなたがにBeautifulSoup
を使用することができます^
を=のfindAll コンテンツ( '(*)'、web_page_contents、re.DOTALL) をしかし、私は代わりに、次の言及にこのいずれかを取得それを行う。それは非常に良いdocumentationを持ち、非常に簡単です。
次のコードは動作します:それは非常に単純でない限り
import requests
from bs4 import BeautifulSoup
r = requests.get(webpage_url)
soup = BeautifulSoup(r.content, 'lxml')
for link in soup.find_all('link'):
print link.text
http://stackoverflow.com/a/1732454/847552 – skovorodkin
正規表現は、正規つまり、XMLを解析するために適していない:PあなたはすべきいくつかのXML処理ライブラリを使用してください。例えば、これを読んでください:https://docs.python.org/2/library/xml.etree.elementtree.html#module-xml.etree.ElementTree – freakish