2008-09-05 18 views
4

PDFからテキストを抽出するための良いライブラリはありますか?私がしなければならないなら、私はそれを支払うつもりです。C#または従来のASP(VBScript)を使用してPDFからテキストを抽出するには、どのような方法が良いですか?

C#または従来のASP(VBScript)で動作するものが理想的で、PDFからページを分離する必要があります。

This questionは、特にpdftotextという興味深いものがありましたが、できれば外部のコマンドラインアプリを呼び出すことは避けてください。ここで

答えて

4

Windowsに組み込まれたIFilterインターフェイスを使用すると、サポートされているファイルタイプからテキストとプロパティ(作成者、タイトルなど)を抽出できます。これはCOMインターフェイスなので、.NETの相互運用機能を使用することになります。

また、無料のPDF IFilterドライバをAdobeからダウンロードする必要があります。

0

は良いリストです: Open Source Libs for PDF/C#

これらのほとんどは、PDFファイルを作成するに向けているが、彼らは同様の能力を読んだことがあるはずです。

これは同様にあります:iText

私は前にiTextを果たしています。大事なことはありません。

0

Docotic.Pdf libraryは、PDFドキュメントから書式付きまたはプレーンテキストを抽出するために使用できます。

このライブラリは、任意のバージョンのPDFドキュメントを読むことができます(最新の公開標準まで)。ページの抽出はライブラリによってもサポートされています。

リンクコードをサンプリングする:

免責事項:私は、ライブラリのベンダーのために働きます。承認された答えにまで

0

追加:テキストインデックス作成のためのAdobeのIFilterを交換するための代替商用ソリューションは、(同様のAPIを提供するだけでなく、追加のプレミアム機能を提供)もあります。

  1. Foxit PDF IFilter:はるかに速くテキストを提供しますアドビのプラグインと比較したインデックス作成。
  2. PDFLib PDF iFilter:破損したPDFドキュメントと独自のクエリを実行するための追加APIをサポートしています。

あなたは、古典的なASPまたはVB6のような管理の.NETアプリケーションやレガシープログラミング言語の両方から使用できる単一のツールを探している場合は、これは、.NETおよびActiveXの両方を提供して商用ByteScout PDF Extractor SDKがフィットする場所です/ COM API。

免責事項:私はByteScoutで働いています

関連する問題