コンテンツの抽出方法。 PSTのファイルを使用してApacheのtika？

apache tikaを使用してファイルを解析する方法 1.2？
ljceneで検索しているときに、本文、添付ファイル、およびすべてのメタデータを取得するにはどうすればよいですか？コンテンツの抽出方法。 PSTのファイルを使用してApacheのtika？

for (File file : docs.listFiles()) { 
Metadata metadata = new Metadata(); 
ContentHandler handler = new BodyContentHandler(); 
ParseContext context = new ParseContext(); 
Parser parser = new AutoDetectParser(); 
InputStream stream = new FileInputStream(file); 

try { 
parser.parse(stream, handler, metadata, context); 
} 
catch (TikaException e) { 
e.printStackTrace(); 
} 
catch (SAXException e) { 
e.printStackTrace(); 
}

出典

2016-04-30 user2857190

雅BodyContentandle、メタデータおよびドキュメントオブジェクト – user2857190

（ファイルファイル：docs.listFiles（））{ メタデータメタデータ=新しいメタデータ（）; ContentHandler handler = new BodyContentHandler（）; ParseContext context = new ParseContext（）; パーサーパーサー=新しいAutoDetectParser（）; InputStream stream =新しいFileInputStream（ファイル）。 \t \t \t試み{ \t \t \t \t parser.parse（ストリーム、ハンドラ、メタデータ、コンテキスト）。 \t \t \t} \t \t \tキャッチ（TikaException電子）{ \t \t \t \t e.printStackTrace（）; \t \t \t}キャッチ（SAXExceptionの電子）{ \t \t \t \t e.printStackTrace（）; \t \t \t} – user2857190

あなたが1.2で立ち往生している場合は、アップグレードすることができるしている場合は、あなたが推薦here

を試みるかもしれないが、我々は1.7でRecursiveParserWrapperとして...ちょうど1.12にアップグレードすることを追加します場合できますか、または1〜2週間待つと1.13が出てきます。コマンドライン経由

：

のjava -jarティカ-app.jar -J -t -i input_directory -o OUTPUT_DIRECTORY

またはコードで

：私は自動検出パーサを試してみました

Parser p = new AutoDetectParser(); 
    RecursiveParserWrapper wrapper = new RecursiveParserWrapper(p, 
      new BasicContentHandlerFactory( 
        BasicContentHandlerFactory.HANDLER_TYPE.XML, -1)); 

    try (InputStream is = Files.newInputStream(file)) { 
     wrapper.parse(is, new DefaultHandler(), new Metadata(), context); 
    } 
    int i = 0; 
    for (Metadata metadata : wrapper.getMetadata()) { 
     for (String name : metadata.names()) { 
      for (String value : metadata.getValues(name)) { 
       System.out.println(i + " " + name +": " + value); 
      } 
     } 
     i++; 
    }

出典

2016-05-02 12:56:58

Welcome to StackOverflow Tim！あなたが選択した頻度で新しいTika質問を通知するには、このStackExchangeフィルタに従うことができます（http://stackexchange.com/filters/212512/apache-tika-questions）ことを忘れないでください！ :) – Gagravarr

私はメールのメタデータのみを提供しています。どのようにメール本文を取得できますか？添付ファイル – user2857190

各メタデータオブジェクトはファイル/添付ファイルを表します。 'wrapper.getMetadata（）'によって返されるリストの大きさはどれくらいですか？コンテンツは 'X-TIKA：コンテンツキー'に入力されている必要があります。私はちょうど新しく作られたPSTでこれを二重にチェックして、それは動作します。私たちの[JIRA]（https://issues.apache.org/jira/browse/tika/）でPSTを私たちと共有することができたらどうなりますか？ –

コンテンツの抽出方法。 PSTのファイルを使用してApacheのtika？

答えて

関連する問題