現在、PDFボックスを解析するためにPDFボックスを使用していますが、フォント(太字、サイズなど)やフォントの位置など、テキストに関するデータを取得する方法を見つけようとしています。PDFテキストと座標の解析
提案がありますか?
現在、PDFボックスを解析するためにPDFボックスを使用していますが、フォント(太字、サイズなど)やフォントの位置など、テキストに関するデータを取得する方法を見つけようとしています。PDFテキストと座標の解析
提案がありますか?
(見つけにくい)PDFBoxドキュメントを突き止めた後、私はthis little gemを見つけました。
明らかに、例の1つでは、求めたものすべてを正確に実行する方法を示しています。基本的にはPdfTextStripper
をサブクラス化し、processTextPosition
メソッドをオーバーライドします。そこには、必要な情報があればTextPosition
に問い合わせます。
今後の参考のために、あなたはここでJavadocを見つけることができます:本当に印象的なサウンドをhttp://pdfbox.apache.org/apidocs/index.html
のうちの1つで、PDFからのテキスト抽出に最適なものはTET, the text extraction toolkitです。 TETはPDFlib.comファミリー製品の一部です。
PDFlib.comは、Thomas Merz("PostScript and PDF Bible")の会社です。
TETの最初の化身はa libraryです。それはおそらく、ページ上の各テキスト要素に関する位置情報を含めて、あなたが望むすべてを行うことができます。ああ、それはまた、画像を抽出することができます。断片化された画像を再結合+合成します。
pdflib.comはまた、この技術の別のバージョンであるTET plugin for Acrobatを提供しています。明らかに、これを利用するにはAcrobatも必要です。
第3の化身はPDFlib TET iFilterです。これは、ユーザーワークステーション用のスタンドアロンツールです。どちらもビールのようにプライベートで非商用の目的で使うのは無料です。
最後に、TETにはコマンドラインインターフェイスも付属しています。
TETは本当に強力です。 Adobe独自のテキスト抽出よりも優れた方法。それは私のために、他のツール(Adobeを含む)がゴミだけを吐き出すテキストを抽出したものです。
私は数ヶ月前に自分のデスクトップスタンドアロンツールをテストしましたが、彼らのウェブページで言うことは真です。それは非常に良いコマンドラインを持っています。いくつかの私の "問題のある" PDFテストファイルは、私の完全な満足感までツールを処理しました。
このことは、洗練された挑戦的なPDFテキスト抽出のすべての要件について私の推奨事項です。
TETは単なる素晴らしいものです。テーブルを検出します。表の内部では、複数の列にまたがるセルを識別します。これは、各テーブルセルのテーブル行と内容を別々に識別します。それはハイフネーションをよく扱います:ハイフンを取り除き、完全な単語を復元します。非ASCII言語(CJK、アラビア語、ヘブライ語を含む)をサポートしています。合字に出会うと元の文字を復元します...
試してみてください。
。 "あまりにも真実であるには良い"私はそれを壊すことができる方法を知るために、それに亀裂を入れたいと思う。 > :)私はそれが*可能であることを知っています、また、それがどれほど難しいかも知っています。 –
@マークストーラー:私は不思議です - あなたはTETで亀裂を克服する機会を得ましたか? –
私はちょうど1年以上の間PDFのビジネスから出てきました。 –
Quick PDF Libraryで抽出オプション3または4を使用したGetPageText機能は、テキスト(個々の単語またはテキストの一部)および関連するフォント名、テキストの色、テキストサイズおよびテキストを含む選択されたページのCSV文字列を返します。ページ上の - 座標。
注:商用ライブラリで、私はそれを販売する会社のために働いています。
あなたの会社と製品について正直でありがとう。 –
この小さな宝石は機能しません。 –
これは動作しますが、PDFBoxソースからコンパイルする必要があります – lauhub