2012-02-17 38 views
1

これは大変に扱いにくいスレッドです。これらの電子メールのそれぞれは正常に返信されていたので、数百の電子メールに達するまで、それぞれが完全な履歴を持っていることはそれほど重要ではありませんでした。Thunderbirdによってエクスポートされた.emlファイルから古いメッセージを取り除く必要があります

私はThunderbirdでそれらをすべて開いてエクスポートしました。さて、私は、各電子メールを自分のコンテンツに限定する方法を見つけなければなりません。返信先はそのままにしておき、他のメールの実際の内容を取り除くだけです。

私はこれに精通しているので、今はPythonを使用しています。以前はXML解析に使用していました。私はBeautifulSoupを試しましたが、これは3Dの "gmail_quote" div要素を取り除くのにはうまくいきましたが、そうすることで他の要素にさまざまなビットをラップすることによって残りの.emlファイルを理解しようとしたようですフォーマットを台無しにする。

したがって、純粋なXMLではありませんが、多くの有効なXML、特定のdivクラスとその子のすべてのインスタンス、プレーンテキストに触れないでファイルを削除する方法を見つける必要があります。私が扱おうとしているセクションは、すべて有効なXMLです(または、属性に関する奇妙な引用符でBeautifulSoupに十分近い)。

私は身体の返信も取り除かなければならないことを知っていますが、それは十分に簡単です。

答えて

0

サンプルを見ることなく、私はあなたが必要とするものを達成する方法を確実に言うことはできませんが、email moduleのパーサーは.emlファイルの解析を処理する必要があります。

関連する問題