特定の矩形領域内のPDF文書からテキストを抽出する必要があります。ワークフローは次のとおりです。まずpdfはjpg画像に変換されます。次に、選択矩形を画像の上に描画します。それから私は何とかその選択領域内のpdf docからすべてのテキストを抽出する必要があります。どのようなフリーウェアのPDFファイルのlibs C#からアクセスするために使用する任意の提案?どのように特定の矩形領域内のPDF文書からテキストを抽出するには?
答えて
私は同意しますが、OCRはここで使用する方法ではありません。バウンディングボックスの座標とともにテキストを抽出できるPDFライブラリが必要です。
QuickPDFは、非常にリーズナブルな$ 249の価格で必要な情報を抽出できる商用ライブラリ(www.quickpdf.com)です。 http://www.quickpdflibrary.com/help/quickpdf/DAExtractPageText.phpはあなたが探している機能です。これにより、ページ全体のテキストが抽出され、単純な点および/または四角形の関数を使用して、選択した四角形にテキストを制限する必要があります。
iTextが私の研究に基づいてこの機能を持っているとは思わない。
あなたの答えに感謝します。 – davidgale
PDFをJPEG画像にラスタライズして、テキスト認識(OCR)を使用して選択した領域内のテキストを抽出することをお勧めします。 .NET用のOCRライブラリについては、articleです。 PDFからテキストを抽出することに関しては、これがどのようにしてより確実に達成されるかを示すhere's an articleが関係しています。問題は、ユーザーが選択した矩形内のテキストをどのように認識するかにあります。
オプションではありません。私は100%の精度が必要です。 ocrは100%正確ではありません。 1つのpdf文書に複数の言語のテキストが含まれる場合があります。私が知る限り、一度に複数の言語をサポートする無料のライブラリがありません。 – davidgale
@davidgale、私は非常にこの種の問題のための無料の解決策が存在する疑いがあります。 2つ目のオプションを見てから、PDFからテキストを抽出し、あなたのケースで十分に確実に動作するかどうかを確認してください。それでもIMHOは簡単な作業ではない選択領域について把握する必要があり、これを実行できるフリーウェアライブラリは認識していません。 –
(免責事項を - 私はそのPDFの製品にAtalasoftのために働く)お読みください Atalasoft's PdfReaderはこれを行います。フリーウェアではありませんが、かなりうまく動作します。コードは次のようになります
using (PdfTextDocument doc = new PdfTextDocument(pathToFile)) {
PdfTextPage page = doc.GetPage(pageNumber);
string text = page.GetTextInBox(yourSelection);
}
完全itextsharpを用いて直交座標に基づいてPDFデータを抽出し、このコード
List<string> linestringlist = new List<string>();
PdfReader reader = new PdfReader(pdfFilename);
iTextSharp.text.Rectangle rect = new iTextSharp.text.Rectangle(coordinate1, coordinate2, coordinate3, coordinate4);
RenderFilter[] renderFilter = new RenderFilter[1];
renderFilter[0] = new RegionTextRenderFilter(rect);
ITextExtractionStrategy textExtractionStrategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), renderFilter);
string text = PdfTextExtractor.GetTextFromPage(reader, 1, textExtractionStrategy);
どの時点で 'linestringlist'を使用していますか? –
ここで 'linestringList'の使用は何ですか? –
- 1. PDF文書に無制限のテキスト領域を追加する
- 2. sierpinskiカーペット - 矩形の領域
- 3. PDF文書からテキストを抽出するには?
- 4. ICEpdfを使用してPDFページの特定の領域にテキストを抽出する
- 5. cv :: Matの矩形領域のディープコピーを作成するには?
- 6. メモ帳++テキスト内の特定の領域を選択する
- 7. OpenGL 2D矩形領域のクリッピング
- 8. 記事テキスト領域に特定の幅を設定する
- 9. 画像内の特定の領域を抽出してさらに分類する
- 10. 特定の領域外のクリックにどのように反応しますか?
- 11. HTML5キャンバス内の特定の領域をクリアするにはどうすればよいですか?
- 12. Word文書からRTF/HTMLテキストを抽出するには?
- 13. 文書からテキストを抽出/認識するには?
- 14. 大きなテキストコンテンツから特定のテキストを抽出するにはどうすればよいですか?
- 15. デスクトップ上の領域矩形を選択する
- 16. pdfからcへのテキストの抽出#
- 17. PDFファイルからテキストを抽出する
- 18. ファイルから特定のテキストを抽出する方法は?
- 19. iOS:矩形領域がすべて不明瞭であるかどうかを検出する方法。キーボードで?
- 20. 特定の領域にスプライトがあるかどうかを確認する-AndEngine
- 21. PDFBoxからPDFボックスの領域を切り出す
- 22. UNIXのテキストファイルから特定のテキストを抽出する
- 23. Javaテキスト領域の特定の列にテキストを追加します。
- 24. Cocos2Dの特定の領域(スプライトでもある)内でスプライトが検出されないようにするにはどうすればよいですか?
- 25. ドラッグ中に矩形領域をハイライト表示
- 26. VBAは - PDFからデータを抽出し、私はワークシートにPDF文書からデータを抽出しようとしているプロジェクトがある
- 27. テキスト領域の各行から独立してテキストを抽出する方法は?
- 28. はどのように特定のフォントがPDFで特定の文字:: API2
- 29. 2つの矩形がある場合、重なり領域を表す別の矩形を返します。
- 30. テキストから特定の情報を抽出する
https://stackoverflow.com/q/20606467/1271037 – dovid
iTextSharpで指定された領域に含まれるテキストを取得する可能性があります(https://stackoverflow.com/questions/20606467/get-text-occurrences-contained-in-a-specified-area-withexiteharp) – bfontaine