get PDFページタイトル

iTextでページタイトルを取得することはできますか？get PDFページタイトル

PdfTextExtractorは、ページからすべてのテキストを返しますが、どの行がタイトルであるかわかりません。また、タイトルは、このように私は、フォントサイズを分析しようとすると、最大のフォントが、TextRenderInfoと行（複数可）を取ることができRegionTextRenderFilter
を使用することはできません、私はタイトルの座標を知らない
つ以上の行が含まれていてもよいですgsへの公開アクセスを提供していません（private final GraphicsState gs）
他のアイデア？

2011-12-22 Lazy

PDF内のページにはタイトルがありませんが、太字や大文字のフォントがあり、他のテキストよりも「上位」と思われる領域に表示されます。あなたはすでにこれを知っているように聞こえますが、私はこれで明確にする必要がありました。

ITextExtractionStrategyをサブクラス化してフォント情報を取得する方法を示すmy post hereを参照してください。私のサンプルは、iTextの.NetポートであるiTextSharpをターゲットにしていますが、フィーチャーツーフィーチャーとほとんど同じです。最大の違いは、JavaがgetXXXとsetXXXを使用し、.Netが両方ともXXXを使用するという点です。さもなければ、すべてはちょうどうまく移植するべきです

ストーリーの道徳は、あなたが「タイトル」と考えるものを定義するいくつかの規則を書き、それらの規則に基づいて解析する必要があるということです。

出典

2011-12-23 20:09:46

get PDFページタイトル

答えて

関連する問題