iText/PDFBoxを使用してPDFからテキストを抽出していますが、PDFで見えないテキストも抽出されます。これらの隠されたテキストを取り除く方法やツールはありますか?PDFの隠しテキストを検出する方法
答えて
OCG
- 含む隠されたテキストを追加するにはさまざまな方法があります。 ???
各PDFは、別の方法を使用して、隠れたテキストがどのように実装されているかを知る必要がある場合があります。
iTextにはテキストの色を返すオプションがありますか?そうであれば、白い色のテキストオブジェクトを無視してみることができます。
返信いただきありがとうございます!しかし、ここでは、テキストがいくつかの画像やベクトル図面によって覆われている場合をもっと探していました。そのようなコンテンツを削除するツールはありますか? – codingscientist
PDFからロゴとテキストの両方を抽出し、画像がロゴの下にあるかどうかを確認する必要があります。その後、PDF上にテキストが見えるかもしれないが、テストは技術的にイメージの下にある透明なイメージでワームの全体を開くことができます。別の選択肢は、テキストオブジェクトのテキストの色または透明度をチェックして、それらが描画されているかどうかを確認することです。テキストを描く/隠す方法はたくさんありますが、さまざまなトリックをすべて知っているツールが必要です。あなたのPDFがすべて1つのソースから来た場合は、はるかに良いチャンスがあります。 OCRは別のオプションです –
- 1. 隠しプロセスを検出する方法
- 2. PDFに隠されたocrテキストを追加する方法
- 3. HTMLでPDFオブジェクトのクリックイベントを検出する方法
- 4. iPhone SDKでPDF文書の向きを検出する方法
- 5. 隠されたテキストをウェブページから掻き出す方法は?
- 6. PDFテキスト検索C#
- 7. キーボードの隠しボタンでiPadのユーザーのタップを検出する方法は?
- 8. 検索中に隠しテキストを表示
- 9. 隠されたSKSpriteNodeをSpritekitでタッチして検出する方法は?
- 10. テキストの文字セットを検出する方法は?
- 11. c# - リッチテキストボックス内の行テキストを検出する方法
- 12. PDFをテキストなしの画像に変換する方法
- 13. 件名でPDFテキストを抽出する
- 14. PDFファイルからテキストを抽出する
- 15. Androidソフトウェアのキーボードが隠れているときを検出する方法は?
- 16. iTextを使用したPDFテキスト抽出
- 17. MsIEのPdfリーダーを検出する
- 18. iOSの隠しPDF要素
- 19. テキストはPDF輸出国
- 20. OS X上のAWT PrinterJobから 'Save as PDF ...'を検出する方法
- 21. スクロールを隠す方法(オーバーフロー:隠し)?
- 22. Pdfテキストを解凍する方法を解析する
- 23. IOS、UIView、サブビューの隠し状態の変化を検出する
- 24. 入力テキストに点滅するカーソルを隠す方法は?
- 25. 隠しフォームフィールドの変更を検出する
- 26. PHPを使用してPDFからテキストを抽出する
- 27. pdfのテキストのx、yの位置を見つける方法
- 28. pdfからcへのテキストの抽出#
- 29. テキストの変更を検出する
- 30. PDFのテキストをC#で置き換える方法は?
隠されたテキストのサンプルを表示しますか?コードはどこですか? –
通常のテキストと一緒に隠れたテキストが抽出されるpdfコンテンツストリームのストレートパースです。画像やベクトル図で覆われたテキストもまたこのように出てきます。なぜなら、オブジェクトが覆われているかどうかを検出する方法がないからです別の – codingscientist
私は同じ問題があります。私は時にはテキストを "検閲"する必要があるので、私は長方形で区域をカバーします。私はpdfとして印刷するので、長方形は単なる注釈ではありません。矩形の下のものを選択してコピーすることはまだ可能です。今私は画像に変換することに頼っていますが、それはエレガントではありません。 – peter