2012-03-20 27 views
1

私は50,000 tiffファイルをそれぞれ50,000 txtファイルに一括変換する必要があるという問題があります。私はabbyy finereaderとこれを行うことができるかもしれない他のソフトウェアを知っていますが、無料の解決策が最適です。私はtesseractも研究しています。誰もが、良い品質の出力でこれを自動的に行うためにtesseractを使用するスクリプトやプログラムを知っていますか?私の意見では、事前OCRバッチ処理TIFFテキスト

答えて

1

おかげで、私はたTesseractはあなたが無料のソリューションを見ていたりしていないかどうか、あなたに最高の結果を与えるために起こっていると思います。

1つのファイルを変換する方法を理解してから使用するコマンドをポストバックすると、複数のファイルを処理するバッチスクリプトを簡単にハックすることができます。

+0

あなたはtesseractがcommerial toolsよりも良い結果を生み出すと思いますか?あなたはこれまで比較しようとしましたか?ここでは実際の比較を見つけることができます:http://www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison – Tomato

3

Tesseractを使用した無料のソリューションについては、ここでは簡単なコマンドラインバッチファイルを使用しています。変数の内容を変更および/または必要に応じてフォルダを作成します。

:Start 
    @Echo off 
    Set _SourcePath=C:\tifs\*.tif 
    Set _OutputPath=C:\txts\ 
    Set _Tesseract="C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" 
:Convert 
    For %%A in (%_SourcePath%) Do Echo Converting %%A...&%_Tesseract% %%A %_OutputPath%%%~nA 
:End 
    Set "_SourcePath=" 
    Set "_OutputPath=" 
    Set "_Tesseract=" 
+0

私は実際にはLinuxでこれを簡単に行うためのシェルスクリプトを書いています。だから今私の問題はそれ自体がtesseractです。非常に「簡単な」例では、うまく動作します。しかし、私は毎回30のTIFFごとに1つのさまざまなエラーを取得しています。例えば"TIFFディレクトリに必須の" stripbycounts "フィールドがありません。だから私はそれらを解決するためにそれらを一つずつ見つけようとしています – greatodensraven

0

は、たTesseractのJava/.NETフロントエンドをVietOCRを見てみましょう。その機能はあなたのニーズに合っているようです。