2010-12-10 21 views
3

iTextSharpを使用してPDFファイルからテキストを取得したいと考えています。しかし、私はitextsharp(itext)のJAVAライブラリのようにPDFTextExtractorを使用することができませんでした。私はファイルの内容を返すreadPDFOfflineクラスが必要です。私はあなたのために私が望むものをよく理解するために下の疑似を与えるでしょう。iTextSharpでPDFTextExtractorを使用する方法

プライベートストリングreadPDFOffline(string fileUri);
PDFを読む;
このPDFの内容を取得; *
内容を文字列に保存します。contentOfflineFile;
返信contentOfflineFile;私はコード

答えて

2

PdfTextExtractorの*一部をしたいと思っ

はiTextSharp、available hereの最新のリリースに存在しています。

PDFでテキストを取得するのはではなく、です。不可能ではありませんが、OCRだけが動作する時があります。それ以外の場合は、PdfTextExtractorが動作するはずです。それが動作しないケースはバグとみなされ、そのように報告されるべきです。

が有効なテキストが抽出可能ではありませんどのように見えるいくつかの例があることに注意してください:エンコードなしで

  1. テキストが...ちょうどインデックスのグリフ。 OCR時間。
  2. "テキスト"は生のパスです。ひどく非効率的で、OCRの時間が増えます。
  3. "テキスト"はビットマップのピクセルです。もう一度OCRしてください。

OCR:光学式文字認識。私の頭の上の名前を思い出すことはありませんが、Google Codeで無料で利用できるものもかなりあります。

+0

返信いただきありがとうございます。 iTextSharpの代わりにPDFBoxライブラリを使用する方法を変更することで、私の問題を解決しました。とにかく、orcに対する良い返答 – gencay

関連する問題