pdfファイルの "空の"ページを検索するにはどうすればよいですか? 次のステップでは、これらのページをghostscriptを使用して.tiffに変換したいと考えています。 UNIXマシン上で1つのコマンドですべてを行うことが可能なら、それは完璧です。PDFでテキストのないページを検索
0
A
答えて
0
これは、大部分が「テキスト」(件名の行)または「空の」ページ(本文のテキスト)の意味によるものです。テキストの形を再現するベクトルパス、または実際に文字の形を再現するイメージを完全に持つことができます。
これは「テキスト」とみなされますか?
または、コンテンツがまったくない(空の)ページを探していますか?なぜそれらをTIFFにレンダリングしたいのか想像できません.....
テキストがない(すなわち、PDFテキスト演算子を使用していない)ページでは、Ghostscriptでテキスト抽出デバイスを使用します。そのデバイスからの出力が空のページにはテキストがありません。
次に、PDFファイルでGhostscriptを実行し、-sPageListスイッチを使用して必要なページだけを処理し、TIFF出力を取得するためにTIFFデバイスの1つを選択できます。
テキストを含むページを特定するためにテキスト抽出デバイスが必要であり、次にページを書き込むためにTIFFデバイスが必要なため、これを1回のパスで実行することはできません(修正されていないGhostscriptを使用)。
TIFFに出力する新しいデバイスを書き込み、デバイスのtext_begin()メソッドが呼び出された場合は、単にページの書き込みをスキップします。これは1回のパスで行いますが、新しいデバイス(99%はTiffデバイスのコピー+ペースト)を作成し、Ghostscriptを再構築することを意味します。あなたはもちろん、あなたのコードをAGPLする必要があります。
関連する問題
- 1. PDFテキスト検索C#
- 2. Webページの検索テキスト
- 3. 検索可能なPDFファイル(画像+テキストPDF)
- 4. PHPでPDFファイルを検索
- 5. プログラムでPDFファイルのテキストを検索し、ページ番号を教えてください。
- 6. 検索ビューでテキストを検索する
- 7. 大きなファイルでフォルダを検索してテキストを検索
- 8. Marklogic PDFドキュメント検索
- 9. イメージを検索可能なpdf
- 10. RubyでPDFを検索し、テキストをハイライト表示し、ページのJPGをエクスポートします
- 11. 検索テキスト機能付きWeb上にPDFファイルを表示
- 12. PDFまたはWord文書のSitecoreテキスト検索
- 13. Delphi - 大きなTMemoでテキストを検索
- 14. 簡単なテキスト検索Bash
- 15. 検索と崇高なテキスト
- 16. Pythonを使用してPDF内のテキストを検索していますか?
- 17. joomla検索ページ検索エンジンフレンドリー
- 18. C#で検索するが、テキスト検索では機能しない
- 19. PDFの検索からページ番号を記録する効率的な方法
- 20. オープンカート:検索結果ページから "検索 - "テキストとハイフンを削除するには
- 21. Solrアンダースコア(_)でテキストを検索
- 22. プロパティでのテキスト検索アクセスオブジェクト
- 23. PDFからテキスト(複数ページ)
- 24. テキスト検索アルゴリズム
- 25. テキスト検索 - オートコンプリート
- 26. テキスト検索が
- 27. javascript:テキストを検索
- 28. MongoDB - テキストの検索
- 29. マングースのテキスト検索
- 30. テキストのJava検索
申し訳ありませんが、私はスキャンしたドキュメントについて話しています。だからベクトル。 OCRがテキストを考えるすべてがテキストです。そして、私はテキストを表示しないすべてのページを抽出したいと思いますが、画像やスタンプでも、白でもかまいません。 あなたの答えをありがとう、今私はゴーストスクリプトに焦点を当てるべきデバイスを知っています(それは理解しにくいです)。 これは手作業でページを見つけて、imagemagickで抽出しました。 –