2016-04-30 9 views
1

apache tikaを使用してファイルを解析する方法 1.2?
ljceneで検索しているときに、本文、添付ファイル、およびすべてのメタデータを取得するにはどうすればよいですか?コンテンツの抽出方法。 PSTのファイルを使用してApacheのtika?

for (File file : docs.listFiles()) { 
Metadata metadata = new Metadata(); 
ContentHandler handler = new BodyContentHandler(); 
ParseContext context = new ParseContext(); 
Parser parser = new AutoDetectParser(); 
InputStream stream = new FileInputStream(file); 

try { 
parser.parse(stream, handler, metadata, context); 
} 
catch (TikaException e) { 
e.printStackTrace(); 
} 
catch (SAXException e) { 
e.printStackTrace(); 
} 
+0

雅BodyContentandle、メタデータおよびドキュメントオブジェクト – user2857190

+0

(ファイルファイル:docs.listFiles()){ メタデータメタデータ=新しいメタデータ(); ContentHandler handler = new BodyContentHandler(); ParseContext context = new ParseContext(); パーサーパーサー=新しいAutoDetectParser(); InputStream stream =新しいFileInputStream(ファイル)。 \t \t \t試み{ \t \t \t \t parser.parse(ストリーム、ハンドラ、メタデータ、コンテキスト)。 \t \t \t} \t \t \tキャッチ(TikaException電子){ \t \t \t \t e.printStackTrace(); \t \t \t}キャッチ(SAXExceptionの電子){ \t \t \t \t e.printStackTrace(); \t \t \t} – user2857190

答えて

1

あなたが1.2で立ち往生している場合は、アップグレードすることができるしている場合は、あなたが推薦here

を試みるかもしれないが、我々は1.7でRecursiveParserWrapperとして...ちょうど1.12にアップグレードすることを追加します場合できますか、または1〜2週間待つと1.13が出てきます。コマンドライン経由

のjava -jarティカ-app.jar -J -t -i input_directory -o OUTPUT_DIRECTORY

またはコードで

:私は自動検出パーサを試してみました

Parser p = new AutoDetectParser(); 
    RecursiveParserWrapper wrapper = new RecursiveParserWrapper(p, 
      new BasicContentHandlerFactory( 
        BasicContentHandlerFactory.HANDLER_TYPE.XML, -1)); 

    try (InputStream is = Files.newInputStream(file)) { 
     wrapper.parse(is, new DefaultHandler(), new Metadata(), context); 
    } 
    int i = 0; 
    for (Metadata metadata : wrapper.getMetadata()) { 
     for (String name : metadata.names()) { 
      for (String value : metadata.getValues(name)) { 
       System.out.println(i + " " + name +": " + value); 
      } 
     } 
     i++; 
    } 
+0

Welcome to StackOverflow Tim!あなたが選択した頻度で新しいTika質問を通知するには、このStackExchangeフィルタに従うことができます(http://stackexchange.com/filters/212512/apache-tika-questions)ことを忘れないでください! :) – Gagravarr

+0

私はメールのメタデータのみを提供しています。どのようにメール本文を取得できますか?添付ファイル – user2857190

+0

各メタデータオブジェクトはファイル/添付ファイルを表します。 'wrapper.getMetadata()'によって返されるリストの大きさはどれくらいですか?コンテンツは 'X-TIKA:コンテンツキー'に入力されている必要があります。私はちょうど新しく作られたPSTでこれを二重にチェックして、それは動作します。私たちの[JIRA](https://issues.apache.org/jira/browse/tika/)でPSTを私たちと共有することができたらどうなりますか? –

関連する問題