2012-01-24 26 views
1

iText/PDFBoxを使用してPDFからテキストを抽出していますが、PDFで見えないテキストも抽出されます。これらの隠されたテキストを取り除く方法やツールはありますか?PDFの隠しテキストを検出する方法

+0

隠されたテキストのサンプルを表示しますか?コードはどこですか? –

+0

通常のテキストと一緒に隠れたテキストが抽出されるpdfコンテンツストリームのストレートパースです。画像やベクトル図で覆われたテキストもまたこのように出てきます。なぜなら、オブジェクトが覆われているかどうかを検出する方法がないからです別の – codingscientist

+0

私は同じ問題があります。私は時にはテキストを "検閲"する必要があるので、私は長方形で区域をカバーします。私はpdfとして印刷するので、長方形は単なる注釈ではありません。矩形の下のものを選択してコピーすることはまだ可能です。今私は画像に変換することに頼っていますが、それはエレガントではありません。 – peter

答えて

1

OCG

  • 100%透明テキスト
  • に隠された/見えない/ロックされたコンテンツグループレイヤ
  • 白文字の色に隠された

    1. 含む隠されたテキストを追加するにはさまざまな方法があります。 ???

    各PDFは、別の方法を使用して、隠れたテキストがどのように実装されているかを知る必要がある場合があります。

    iTextにはテキストの色を返すオプションがありますか?そうであれば、白い色のテキストオブジェクトを無視してみることができます。

  • +0

    返信いただきありがとうございます!しかし、ここでは、テキストがいくつかの画像やベクトル図面によって覆われている場合をもっと探していました。そのようなコンテンツを削除するツールはありますか? – codingscientist

    +1

    PDFからロゴとテキストの両方を抽出し、画像がロゴの下にあるかどうかを確認する必要があります。その後、PDF上にテキストが見えるかもしれないが、テストは技術的にイメージの下にある透明なイメージでワームの全体を開くことができます。別の選択肢は、テキストオブジェクトのテキストの色または透明度をチェックして、それらが描画されているかどうかを確認することです。テキストを描く/隠す方法はたくさんありますが、さまざまなトリックをすべて知っているツールが必要です。あなたのPDFがすべて1つのソースから来た場合は、はるかに良いチャンスがあります。 OCRは別のオプションです –

    関連する問題