2012-01-27 11 views
0

私はFoxit SDKを使用してPDF文書からテキストを抽出しています。Foxit SDKを使用してテキスト形式のpdfを抽出する

すべては問題ありませんが、英語以外の言語でpdfを抽出すると、正しい出力が得られません。

私もPDFBoxをjavaで使用しましたが、Foxit SDKの出力はPDFBoxよりも優れています。

問題を解決できる他のライブラリがありますか? またはその他の解決策があります。

+0

これを試してください。 http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET –

+0

@ShoaibShaikhはい私はこれを試みたが、英語とは別にpdfと離れていても動作していない。 .iは空白の出力を与えます。 :( –

+0

私はあなたがUnicodeのchar範囲を特定し、選択領域を抽出する必要があります..これは私が言及した記事で使用されているpdfparserである、それを変更する必要がありますhttp:///www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file –

答えて

0

個人的には、正しいことをしたい場合は、それを支払う必要があります。 ComponentOneには、WPF用のPDFViewerがあります。あなたのタグが欠けているので、どのフレームワークで作業しているか分かりません。

ComponentOne PDF Viewer for WPF

+0

しかし、私はそれがpdfからテキストを抽出する助けにはならないと思います。 –

0

あなたはそれがあなたの文書に実行する方法を確認するためにクイックPDFライブラリの試用版をしようとする場合があります。 http://www.quickpdflibrary.com

QP.GetPageText(7)またはGetPageText(8)は、ほとんどのPDFファイルでかなり良い結果を返します。

アンドリュー。

免責事項:私は、Quick PDF Libraryのコンサルティングを行っています。

0

ウィンドウが開いている場合は、Adobeが提供するIFilterを使用できます。私、私はIFilterはAdobeがここアドビリーダー8 を提供し、私はパフォーマンスは大丈夫だった

http://www.codeproject.com/Articles/13391/Using-IFilter-in-C

を使用し、正確な例へのリンクである使用(と思う。私は多くの他の方法を使用していません)。 400ページのPDFで約15秒かかります。

関連する問題