2011-06-23 21 views
-3

Possible Duplicate:
using python, Remove HTML tags/formatting from a stringPython:テキスト文字列からHTMLヘッダを削除するには?

私は、HTMLファイルを読み込む:

fi = open("Tree.html", "r") 
text = fi.read() 

私はテキストからHTMLヘッダを削除する:

text = re.sub("<head>.*?</head>", "", text) 

なぜこれが動作しませんか?

+0

あなたはhtmlファイルからヘッダ部分を投稿できますか? –

+0

この返答を読む必要があります:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 –

答えて

1

あなたは改行をキャッチしていないようです。 DOTALLフラグを追加する必要があります。

text = re.sub("<head>.*?</head>", "", text, flags=re.DOTALL) 
+0

エラーメッセージ:TypeError:sub()には予期しないキーワード引数 'flags' – Neopugg

+1

使用しているPythonのバージョンは何ですか? flagsキーワードはv2.7 +です。 –

+0

私はPython v2.6を使用しています。 "flags ="を指定しないと動作しません。ありがとう! – Neopugg

関連する問題