PDFでテキストのないページを検索

pdfファイルの "空の"ページを検索するにはどうすればよいですか？次のステップでは、これらのページをghostscriptを使用して.tiffに変換したいと考えています。 UNIXマシン上で1つのコマンドですべてを行うことが可能なら、それは完璧です。PDFでテキストのないページを検索

出典

2017-01-23 Matthias Pitscher

これは、大部分が「テキスト」（件名の行）または「空の」ページ（本文のテキスト）の意味によるものです。テキストの形を再現するベクトルパス、または実際に文字の形を再現するイメージを完全に持つことができます。

これは「テキスト」とみなされますか？

または、コンテンツがまったくない（空の）ページを探していますか？なぜそれらをTIFFにレンダリングしたいのか想像できません.....

テキストがない（すなわち、PDFテキスト演算子を使用していない）ページでは、Ghostscriptでテキスト抽出デバイスを使用します。そのデバイスからの出力が空のページにはテキストがありません。

次に、PDFファイルでGhostscriptを実行し、-sPageListスイッチを使用して必要なページだけを処理し、TIFF出力を取得するためにTIFFデバイスの1つを選択できます。

テキストを含むページを特定するためにテキスト抽出デバイスが必要であり、次にページを書き込むためにTIFFデバイスが必要なため、これを1回のパスで実行することはできません（修正されていないGhostscriptを使用）。

TIFFに出力する新しいデバイスを書き込み、デバイスのtext_begin（）メソッドが呼び出された場合は、単にページの書き込みをスキップします。これは1回のパスで行いますが、新しいデバイス（99％はTiffデバイスのコピー+ペースト）を作成し、Ghostscriptを再構築することを意味します。あなたはもちろん、あなたのコードをAGPLする必要があります。

出典

2017-01-23 17:08:47 KenS

申し訳ありませんが、私はスキャンしたドキュメントについて話しています。だからベクトル。 OCRがテキストを考えるすべてがテキストです。そして、私はテキストを表示しないすべてのページを抽出したいと思いますが、画像やスタンプでも、白でもかまいません。あなたの答えをありがとう、今私はゴーストスクリプトに焦点を当てるべきデバイスを知っています（それは理解しにくいです）。これは手作業でページを見つけて、imagemagickで抽出しました。 –

PDFでテキストのないページを検索

答えて

関連する問題