2011-07-26 17 views
2

"Apache POI"を使用して.doc MS Wordファイルから.ppt MS Powerpointファイルに埋め込み式とテキストを抽出しようとしていますが、テキストを抽出できましたが、どのように埋め込み式を抽出できますか?私が唯一のテキストとして、それを抽出した場合Javaで埋め込み式を使用するにはApache POI library?

組み込み式は次のように出てくる:

!!EMBED Equation.3 

答えて

3

これは、バイナリの.doc形式であなたを助けないかもしれませんが、新しい.docxのフォーマットのために、私がすることができました次のコードを使用して、OLEドキュメントとして埋め込まれている式に取得:

InputStream in = new FileInputStream(f); 
XWPFDocument doc = new XWPFDocument(in); 
for (PackagePart p : doc.getAllEmbedds()) { 
    POIFSFileSystem poifs = new POIFSFileSystem(p.getInputStream()); 
    byte[] oleData = IOUtils.toByteArray(
       poifs.createDocumentInputStream("Equation Native")); 
} 

をそしてあなたextract the MathType dataそこでは、それはa MTEF parserに渡すことができます。

MathTypeデータが必要ない場合は、式をレンダリングするプレースホルダイメージ(WMF形式)もあります。

+0

ありがとう、もう私はそれを必要としません。 – CarlLee

+0

@Thiloこの質問もご覧ください。 http://stackoverflow.com/questions/35418453/how-can-i-add-embedded-equations-to-docx-files-by-using-apache-poi –

関連する問題