2013-03-09 4 views
11

私はOutlookの電子メールアカウントから大量の.msgファイルに入っているデータをダンプしています。 ubuntuのファイルメソッドへの素早い呼び出しは、それらがComposite Document File V2 Documents(それが何であっても)であることを明らかにしました。私は本当にこれらのファイルを平文として読むことができるようにしたいと思います。それはまったく可能ですか?複合ドキュメントファイルV2を読むubuntuのドキュメント(.msg)ファイル

更新:私が大量のデータマイニングのために望んでいたことは、このような種類のファイルではまったく役に立たなかったことがわかりました。あなたが同じ問題に直面した場合、私はこの問題に対処するために図書館を作った。 https://github.com/Slater-Victoroff/msgReader

ドキュメントは素晴らしいものではありませんが、かなり小さいライブラリなので、わかりやすく説明してください。

+0

btw "ubuntuの"ファイル "方法"ではない、POSIX(または少なくともUNIX)コマンドです。 – JSmyth

+1

基本的に同じ質問が[より適切な]スーパーユーザーコミュニティに返答されます - http://superuser.com/questions/99250/opening-a-msg-file-in-ubuntu – Juan

答えて

12

私は今朝同じ問題に直面しました。私は、ファイル形式上の任意の情報を見つけることができませんでしたが、文字列とgrepを使用してファイルから必要な情報を抽出することが可能であった:

strings -e l *.msg | grep pattern 

-e lは(それは小さなLです)UTF-16に変換します。

これは、必要なデータをファイルからグレープできる(必要なすべての行に標準の文字列またはパターンが含まれている)場合にのみ機能します。

+0

ああ、更新を忘れました。私は先に進み、生の.msgファイルから電子メールのテキスト版を解析するライブラリを構築しました。この問題に直面しているすべての貧しい魂のためにリンクします。 https://github.com/Slater-Victoroff/msgReader –

+0

ここにファイルフォーマットに関する文書があります:http://www.openoffice.org/sc/compdocfileformat.pdf;私はそれを読んでいないか、それを使用しようとしましたが、役に立つかもしれません。 – retracile

+0

@retracile素晴らしい発見!私はこれを完全に見ていきます。 –