PDFテキストと座標の解析

現在、PDFボックスを解析するためにPDFボックスを使用していますが、フォント（太字、サイズなど）やフォントの位置など、テキストに関するデータを取得する方法を見つけようとしています。PDFテキストと座標の解析

提案がありますか？

2011-06-20 Alexis Canyon

（見つけにくい）PDFBoxドキュメントを突き止めた後、私はthis little gemを見つけました。

明らかに、例の1つでは、求めたものすべてを正確に実行する方法を示しています。基本的にはPdfTextStripperをサブクラス化し、processTextPositionメソッドをオーバーライドします。そこには、必要な情報があればTextPositionに問い合わせます。

今後の参考のために、あなたはここでJavadocを見つけることができます：本当に印象的なサウンドをhttp://pdfbox.apache.org/apidocs/index.html

出典

2011-06-22 17:42:23

この小さな宝石は機能しません。 –

これは動作しますが、PDFBoxソースからコンパイルする必要があります – lauhub

のうちの1つで、PDFからのテキスト抽出に最適なものはTET, the text extraction toolkitです。 TETはPDFlib.comファミリー製品の一部です。

PDFlib.comは、Thomas Merz（"PostScript and PDF Bible"）の会社です。

TETの最初の化身はa libraryです。それはおそらく、ページ上の各テキスト要素に関する位置情報を含めて、あなたが望むすべてを行うことができます。ああ、それはまた、画像を抽出することができます。断片化された画像を再結合+合成します。

pdflib.comはまた、この技術の別のバージョンであるTET plugin for Acrobatを提供しています。明らかに、これを利用するにはAcrobatも必要です。

第3の化身はPDFlib TET iFilterです。これは、ユーザーワークステーション用のスタンドアロンツールです。どちらもビールのようにプライベートで非商用の目的で使うのは無料です。

最後に、TETにはコマンドラインインターフェイスも付属しています。

TETは本当に強力です。 Adobe独自のテキスト抽出よりも優れた方法。それは私のために、他のツール（Adobeを含む）がゴミだけを吐き出すテキストを抽出したものです。

私は数ヶ月前に自分のデスクトップスタンドアロンツールをテストしましたが、彼らのウェブページで言うことは真です。それは非常に良いコマンドラインを持っています。いくつかの私の "問題のある" PDFテストファイルは、私の完全な満足感までツールを処理しました。

このことは、洗練された挑戦的なPDFテキスト抽出のすべての要件について私の推奨事項です。

TETは単なる素晴らしいものです。テーブルを検出します。表の内部では、複数の列にまたがるセルを識別します。これは、各テーブルセルのテーブル行と内容を別々に識別します。それはハイフネーションをよく扱います：ハイフンを取り除き、完全な単語を復元します。非ASCII言語（CJK、アラビア語、ヘブライ語を含む）をサポートしています。合字に出会うと元の文字を復元します...

試してみてください。

出典

2011-06-21 12:04:10

。 "あまりにも真実であるには良い"私はそれを壊すことができる方法を知るために、それに亀裂を入れたいと思う。 > :)私はそれが*可能であることを知っています、また、それがどれほど難しいかも知っています。 –

@マークストーラー：私は不思議です - あなたはTETで亀裂を克服する機会を得ましたか？ –

私はちょうど1年以上の間PDFのビジネスから出てきました。 –

Quick PDF Libraryで抽出オプション3または4を使用したGetPageText機能は、テキスト（個々の単語またはテキストの一部）および関連するフォント名、テキストの色、テキストサイズおよびテキストを含む選択されたページのCSV文字列を返します。ページ上の - 座標。

注：商用ライブラリで、私はそれを販売する会社のために働いています。

出典

2011-06-22 11:27:13 Rowan

あなたの会社と製品について正直でありがとう。 –

PDFテキストと座標の解析

答えて

関連する問題