PDFファイルを解析して一部のテキストを抽出していますが、「C2_0」という名前のフォント辞書に遭遇しました。この辞書にはCIDFont(タイプ0)にToUnicode
CMap。だから問題はありません。ToUnicode
CMapを解析し、2バイトの文字コードをUnicode値にマップするツールがあります。PDF:異なるToUnicode Cmapsでフォント名が重複する
しかし、PDFファイル、後で別のToUnicode
のCMapを含んでも「C2_0」と呼ばれるある別フォント辞書オブジェクトを含みます。私は2番目のCMapをどのように処理すべきか、実際には思いつかなかったので、両方のCMapsからのエントリを推測して組み合わせました。これは実際に働いて、テキストを正しく抽出しました。
しかし、これは許可されているか、この状況に対処しているものはPDFリファレンスマニュアルには見つかりません。私は重複したフォント名が不特定の動作につながると思っていたでしょう。私は長時間の推測としてそれらを組み合わせることを試みた - それは実際に働いて驚いた。
誰もこの経験がありますか? PDFがTf
オペレータによって呼び出されたときに「結合」する異なるCMapsを持つ異なるオブジェクトを参照する重複フォント名を持つことが許可されているかどうかは知っていますか?
この回答は正確です。言い換えると、2つのC2_0エイリアスを別々のページに置いている限り、それは問題ありません。ページを「2up」スタイルにマージした場合、マージツールは競合するエイリアスを解決し、そのうちの1つの名前を変更する必要があります。 2つのフォントマッピングが正常にマージされたら、あなたはただ運がいいだけです。 –