2011-06-20 63 views
7

現在、PDFボックスを解析するためにPDFボックスを使用していますが、フォント(太字、サイズなど)やフォントの位置など、テキストに関するデータを取得する方法を見つけようとしています。PDFテキストと座標の解析

提案がありますか?

答えて

3

(見つけにくい)PDFBoxドキュメントを突き止めた後、私はthis little gemを見つけました。

明らかに、例の1つでは、求めたものすべてを正確に実行する方法を示しています。基本的にはPdfTextStripperをサブクラス化し、processTextPositionメソッドをオーバーライドします。そこには、必要な情報があればTextPositionに問い合わせます。

今後の参考のために、あなたはここでJavadocを見つけることができます:本当に印象的なサウンドをhttp://pdfbox.apache.org/apidocs/index.html

+0

この小さな宝石は機能しません。 –

+0

これは動作しますが、PDFBoxソースからコンパイルする必要があります – lauhub

3

のうちの1つで、PDFからのテキスト抽出に最適なものTET, the text extraction toolkitです。 TETはPDFlib.comファミリー製品の一部です。

PDFlib.comは、Thomas Merz("PostScript and PDF Bible")の会社です。

TETの最初の化身はa libraryです。それはおそらく、ページ上の各テキスト要素に関する位置情報を含めて、あなたが望むすべてを行うことができます。ああ、それはまた、画像を抽出することができます。断片化された画像を再結合+合成します。

pdflib.comはまた、この技術の別のバージョンであるTET plugin for Acrobatを提供しています。明らかに、これを利用するにはAcrobatも必要です。

第3の化身はPDFlib TET iFilterです。これは、ユーザーワークステーション用のスタンドアロンツールです。どちらもビールのようにプライベートで非商用の目的で使うのは無料です。

最後に、TETにはコマンドラインインターフェイスも付属しています。

TETは本当に強力です。 Adobe独自のテキスト抽出よりも優れた方法。それは私のために、他のツール(Adobeを含む)がゴミだけを吐き出すテキストを抽出したものです。

私は数ヶ月前に自分のデスクトップスタンドアロンツールをテストしましたが、彼らのウェブページで言うことは真です。それは非常に良いコマンドラインを持っています。いくつかの私の "問題のある" PDFテストファイルは、私の完全な満足感までツールを処理しました。

このことは、洗練された挑戦的なPDFテキスト抽出のすべての要件について私の推奨事項です。

TETは単なる素晴らしいものです。テーブルを検出します。表の内部では、複数の列にまたがるセルを識別します。これは、各テーブルセルのテーブル行と内容を別々に識別します。それはハイフネーションをよく扱います:ハイフンを取り除き、完全な単語を復元します。非ASCII言語(CJK、アラビア語、ヘブライ語を含む)をサポートしています。合字に出会うと元の文字を復元します...

試してみてください。

+0

。 "あまりにも真実であるには良い"私はそれを壊すことができる方法を知るために、それに亀裂を入れたいと思う。 > :)私はそれが*可能であることを知っています、また、それがどれほど難しいかも知っています。 –

+0

@マークストーラー:私は不思議です - あなたはTETで亀裂を克服する機会を得ましたか? –

+0

私はちょうど1年以上の間PDFのビジネスから出てきました。 –

1

Quick PDF Libraryで抽出オプション3または4を使用したGetPageText機能は、テキスト(個々の単語またはテキストの一部)および関連するフォント名、テキストの色、テキストサイズおよびテキストを含む選択されたページのCSV文字列を返します。ページ上の - 座標。

注:商用ライブラリで、私はそれを販売する会社のために働いています。

+2

あなたの会社と製品について正直でありがとう。 –

関連する問題