2017-01-23 5 views
0

pdfファイルの "空の"ページを検索するにはどうすればよいですか? 次のステップでは、これらのページをghostscriptを使用して.tiffに変換したいと考えています。 UNIXマシン上で1つのコマンドですべてを行うことが可能なら、それは完璧です。PDFでテキストのないページを検索

答えて

0

これは、大部分が「テキスト」(件名の行)または「空の」ページ(本文のテキスト)の意味によるものです。テキストの形を再現するベクトルパス、または実際に文字の形を再現するイメージを完全に持つことができます。

これは「テキスト」とみなされますか?

または、コンテンツがまったくない(空の)ページを探していますか?なぜそれらをTIFFにレンダリングしたいのか想像できません.....

テキストがない(すなわち、PDFテキスト演算子を使用していない)ページでは、Ghostscriptでテキスト抽出デバイスを使用します。そのデバイスからの出力が空のページにはテキストがありません。

次に、PDFファイルでGhostscriptを実行し、-sPageListスイッチを使用して必要なページだけを処理し、TIFF出力を取得するためにTIFFデバイスの1つを選択できます。

テキストを含むページを特定するためにテキスト抽出デバイスが必要であり、次にページを書き込むためにTIFFデバイスが必要なため、これを1回のパスで実行することはできません(修正されていないGhostscriptを使用)。

TIFFに出力する新しいデバイスを書き込み、デバイスのtext_begin()メソッドが呼び出された場合は、単にページの書き込みをスキップします。これは1回のパスで行いますが、新しいデバイス(99%はTiffデバイスのコピー+ペースト)を作成し、Ghostscriptを再構築することを意味します。あなたはもちろん、あなたのコードをAGPLする必要があります。

+0

申し訳ありませんが、私はスキャンしたドキュメントについて話しています。だからベクトル。 OCRがテキストを考えるすべてがテキストです。そして、私はテキストを表示しないすべてのページを抽出したいと思いますが、画像やスタンプでも、白でもかまいません。 あなたの答えをありがとう、今私はゴーストスクリプトに焦点を当てるべきデバイスを知っています(それは理解しにくいです)。 これは手作業でページを見つけて、imagemagickで抽出しました。 –

関連する問題