2011-11-11 12 views
2

現在、私はPuma.NETで作業しており、検索可能なPDFファイルにスキャンされたマルチページtifを変換しました。しかし、このテキストpdf上にイメージを生成する機能を提供するオープンソースライブラリはありますか?この方法で元のtifファイルはpdf形式で保存され、ocrテキストは隠されていますが、選択や検索に使用できます。PDFに隠されたocrテキストを追加する方法


クイックレスポンスありがとうございました。私の既存の図書館が結果を達成するために動かないなら、私は確かにQuickPDFにショットを与えるでしょう。 :-)

Btw、私はちょうど良いアイデアを得ました。私はiTextSharpを使ってそれを行うことができると思う。しかし、私はiTextSharpの初心者として2つの質問があります。

1)サイズの異なるページをPDFに追加するにはどうすればよいですか? 2)SetAbsolutePositionやその他の関数を使用して、特定のページに画像レイヤーを追加する方法は?

上記の質問にiTextSharpコードを提供できる人がいれば、それは素晴らしいことです!

答えて

1

必要な機能を実行するのに十分な機能を備えたQuick PDF Library LITEを使用できます。オープンソースではありませんが、自由に使用できます。あなたは以下の機能

QP.SetPageSize()を使用する必要があります

http://www.quickpdflibrary.com/free/lite.php

。 QP.SetOrigin(); QP.AddImageFromFile(); QP.SetTextSize(); QP.DrawTextBox(); QP.SetTextColor(); QP.NewPage();

イメージを追加する前に、白いテキストオブジェクトを追加する必要があります。

アンドリュー。

免責事項:私はこの製品のコンサルティングを行っています。

+0

私はOCRのPDFテキストフォーマットに画像レイヤーを追加しましたが、位置は保持されません。クイックPDF版で可能ですか? –

+0

各OCRデータの座標があれば、DrawTextBox(x、y、w、h、text、alignment)を使って不可視テキストをかなり正確に配置できます。 どのOCRエンジンを使用していますか? Tesseract 2.xxを使用している場合は、OCRテキストのx、y、w、hの位置にアクセスする可能性はほとんどありません。 –

+0

残念ながら、私には座標がありません。私はいつでも無料の解決策がないと思われるので、この質問をいつも開いておくと思います。 –

関連する問題