2011-08-11 8 views
0

Javaを使用して既存のOCRデータを.tifファイルで取得したいと考えています。このOCRデータは、MS Office Document Image Writerを使用して作成されます。私は少しオープンソースライブラリを検索しましたが、添付されたOCRデータを取得/読み込むことができるライブラリ/ツールは見つかりませんでした。Javaを使用して.tifファイル内の既存のOCRデータを取得/読み取る方法は?

Javaを使用してこのOCRデータを.tifファイルで取得するにはどうすればよいですか?

+0

[this](http://stackoverflow.com/questions/1813881/java-ocr-implementation)を見ましたか? – home

+0

それは私が探しているものではなく、おかげで十分ではありません。 – Yakari

+0

すでにTIFFで利用できる既存のメタデータを抽出したいのですか? – home

答えて

0

OCR ExifToolを使用して、MS Office Document Image Writerと(他の)メタデータを使用して作成されたデータを取得できます。

例:

String[] cmdLineInput = { "C:\\ExifTool\\exif.exe", "-ee", 
     "C:\\images\\example.tif" }; 
ProcessBuilder processBuilder = new ProcessBuilder(cmdLineInput); 
Process exif; // = processBuilder.start(); 

/** 
* CmdLineIpnut[1] = Fully qualified path to exiftool CmdLineIpnut[2] = 
* -ee // (extract embedded) option to extract data from multipaged 
* .tif files. CmdLineIpnut[3] = Fully qualified path to .tif file. 
*/ 

String outputLine = ""; 

try { 
    exif = processBuilder.start(); 
    BufferedReader brInput = new BufferedReader(new InputStreamReader(
      exif.getInputStream())); 

    while ((outputLine = brInput.readLine()) != null) { 
     System.out.println(outputLine); 

    } 
    exif.waitFor(); 

} catch (IOException ioe) { 
    // handle exeception 
} 

あなたは、データベースに保存する例として、更なる処理のために使用するオブジェクトに出力線とストアからいくつかのデータを解析することができます。

関連する問題