2011-08-11 18 views
2

私は、次のURLで探しています:しかし奇妙なPDFテキスト抽出ケース

uNISON LAuNCHeS MAGHReb VIRTuAL SCIeNCe LIbRARy: A NeW 
PORTAL PROMOTING INTeRNATIONAL SCIeNTIFIC AND 
TeCHNICAL COLLAbORATION 

: はhttp://www.unisonagency.com/assets/news/unison_pr_mvsl.pdf

私が試したオープンソースのテキスト抽出ツールはすべて、見出しについては、以下の私に与えますAdobe Acrobat Readerはもっと合理的なものを提供します -

Unison Launch es Maghr eb Virt ual Sci enc e 
Librar y: A New Portal Promoting Int ernational 
Scientific and Technical Colla boration 

スペースはオフですが、文字の区切りは意味があります。矛盾がそこにある理由は何ですか?

答えて

-2

フォントはドキュメント内に記述されています。テキスト抽出ツールは、誤った説明を解釈したり、文字コードに基づいて仮定したりします。アドビ製品はそれを他の方法で行い、それを正しく解釈します。

3

明らかに、これはBDC/EMC演算子が「ActualText」属性でストリームに注釈を付けるために使用される「マークされたコンテンツ」ストリームの例です。

テキスト自体は、PDF 32000-1:2008

の7.9.2.2に従ってUTF-16BEまたはPDFDocEncodingになっています。