2009-06-04 11 views
0

IMAP4_SSLとpythonを使用してGmailアカウントからメールを取得しています。 電子メール本文がhtml形式で取得されます。 これを平文に変換する必要があります。 誰も私たちを助けることができますか?IMAP4_SSL(gmail with python)

答えて

2

巨人の肩の上に立つ...
Peter Bengtssonは、この正確な問題の解決方法を見つけ出しました。
Peterのスクリプトでは、Leonard RichardsonのBeautifulSoup
)とFredrik Lundhのunescape() functionという素晴らしい機能が使用されています。

ピーターのテストケースを使用して、あなたはこれを取得:

This is a paragraph. 

Foobar [1] 
http://two.com 

Visit http://www.google.com. 

Text elsewhere. Elsewhere [2] 

[1] http://one.com 
[2] http://three.com 

...これから:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"> 
<html> 
<body> 

<div id="main"> 
<p>This is a paragraph.</p> 

<p><a href="http://one.com">Foobar</a> 
<br /> 

<a href="http://two.com">two.com</a> 

</p> 
    <p>Visit <a href="http://www.google.com">www.google.com</a>.</p> 
<br /> 
Text elsewhere. 

<a href="http://three.com">Elsewhere</a> 

</div> 
</body> 
</html>