2012-04-02 9 views
1

ODTドキュメントのコンテンツからフィールドタグを抽出するには、Javaライブラリまたはコードを使用する必要があります。 odtはある種の圧縮ファイルであり、その内容はcontent.xmlファイルにあります。もちろん、私はファイルを抽出し、content.xmlを開いて解析することができますが、いくつかのより高いレベルのコードが存在すると信じています。ただ、一例として、コンテンツが次のようになります。Javaライブラリを使用してODTドキュメントからフィールドを抽出

<text:p text:style-name="Standard">Hi ${name}!</text:p>  
<text:p text:style-name="Standard"> 
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p> 

私は$ {名前}と$ノームのようにフィールドを抽出したいと思います。

私はApache Tikaをそのために使うことができると知っていますが、実際にはフィールド抽出を示す例は見つかりませんでした。これは、私が使用しているフィールドが入力フィールドタグの代わりに構造化されていないテキストであるためだと思います。事前に

おかげで、 ダニエル

答えて

2

まあ、誰もが興味を持っているだけの場合には、我々はODTからコンテンツを取得するためにApacheティカを使用して終了し、私たちは次の正規表現使用して解析されています:

\$\{[\w\-\.]*\} 
関連する問題