0
私はタグ間のすべてのテキストを見つけることが任されています。beautifulsoupを使わずにPythonでファイル内にタグを見つける
import urllib.request
import urllib.parse
import re
file = open("file.txt", "r")
s = file.read()
file.close()
file.encode('utf-8')
files = re.findall(r'<a href="(.*?)">(.*?)</a>', str(file))
if files:
for link, title in files:
print (title)
マイtxtファイルが完全にHTML有効でないHTMLが含まれています
は、ここに私のコードです。しかし、htmlの妥当性は重要ではありません。私はファイルを変更することはできません。
出力はスパン要素に当たるまで動作し、生の文字列を出力します。
'bs'でどのパーサーを使用しましたか?デフォルトのパーサーは部分的に有効なHTMLをうまく扱えません。 'BeautifulSoup(" file.txt "、" html5lib ")'を試してください。正規表現でHTMLを解析することは悪い考えです。 – DyZ
@DYZ私は美容スープを使用できません。私はそれを使用することが許可されていません。 –
彼は間違っている教師に教えてください:http://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-not。そしてあなたの 'str(ファイル)'は本当に 's'でなければなりません。 – DyZ