2011-02-05 7 views
4

PHPドキュメントまたはLinuxライブラリを使用して、PDFドキュメント内のすべてのテキストフィールドのX/Y座標と高さ/幅を取得できますか? PDFTKを使用してPDF内のすべてのテキストフィールドを抽出していますが、座標情報および/または寸法情報が表示されません。そうでない場合は、PDFドキュメントをトラバースして、テキストフィールドのx、y、高さ/幅のデータを計算できますか?テキストフィールドの寸法と座標をPDFで取得

答えて

0

これは可能ですが、ほとんど実行できません。

FPDIを使用してPHPドキュメントをPDFで開くことができます。メモリ内にPDFオブジェクトの抽象ツリーを生成します。 TCPDFとFPDFはそれを元に戻すことができます。

しかし、ツリーを横断して正しい属性を見つけることは非常にです。 (私は間違いなく動詞)

今、PDF形式は実際に人間が読める形式です。そして、それは確かに座標を可読形式で含んでいます(それは主にIIRCの点にあります)。見た目だけを知っていれば、単純な正規表現でそれを発見するかもしれません。いくつかのノードはgzuncompress()されていなければならず、あなたはその文書を修正したり、元に戻したりしようとしていません。だから、FPDIとprint_r()を試して戦略を考案してください。

0

ええ、あまりにも難しくありません。私が仕事で知っている最高のツールはpdfminerです。それはPythonですが、Pythonを使用したくない場合は、xml形式のpdf情報をダンプして、選択した武器で解析してください:)問題があれば返信してください:)

関連する問題