2017-01-26 2 views
0

1.PoDoFoポリッシュ文字&PdfContentsTokenizerエラー</strong> PDFファイルから<strong>

どのように取得するにはポリッシュ文字?どういうわけか教えてください

磨かれた文字が処理されますか? Becouse私は例えばłの代わりに\200を取得します。おもしろいことは、最初の "nonbase"文字としてłが発生したときだけです。 PDFファイルはaaaałęąaaaaで始まるのであれば、ł\200 よう\201ようęąしかしなどのPDFファイルがaaaaąęłaaaaで始まる場合、łがのようにコード化され、\201ようęą\200のようにコーディングされていますどんなシステムでもこの文字を手に入れることができますか?

2.

私は、PDFファイルからテキストを抽出しようとしている、私はこのような何か:

string input_name = "example.pdf"; 
PdfMemDocument pdf(input_name.c_str()); 
    for (int pn = 0; pn < pdf.GetPageCount(); ++pn) { 
     PdfPage* page = pdf.GetPage(pn); 
     PdfContentsTokenizer tok(page); 
     const char* token = nullptr; 
     PdfVariant var; 
     EPdfContentsType type; 
     while (tok.ReadNext(type, token, var)) { 
      //etc. 

をしかし、私はそれが正常に動作しないPdfContentsTokenizer tok(page);の問題を得ました。それがスムーズに行くと、他のことはinffas32.asmファイルにAccess violation reading locationエラーをスローいくつかのpdfファイルの場合は、669ライン:

L_get_length_code_mmx: 
pand mm4,mm0 
movd eax,mm4 
movq mm4,mm3 
mov eax, [ebx+eax*4]//this is the error line 

はところで、私はすべてのpdfファイルを同じ方法でコード化されていない気づきました。たとえば、podofobrowserを使用すると、公式のpodofo helloworldの例のテキストが表示されませんでした。Hello World!そして、他の人のためにpdfファイルpodofobrowserは違ったやり方でテキストを表示したり、まったく表示しませんでした。

PdfString unicode = pCurFont->GetEncoding()->ConvertToUnicode(rString, pCurFont); 

TextExtractor.

それは、PDFから非Unicodeテキストを抽出するために来るときこれが最も重要なラインであるを使用してPDFからポリッシュテキストをextraxtすることができます

答えて

0

広告1.The link to patch files 広告2.問題は、間違って構築されたzlibライブラリでした。私はそれを再建し、ポドフォを再建し、問題はなくなった。

+0

修正パッチがここに掲載されました:https://sourceforge.net/p/podofo/mailman/message/35654027/ – Etienne

+0

TextExtractorを試しました。それは 'ł'の作業を開始しましたが、'¶'と 'ć'のためには機能しません。 – 18C

+0

18C、ちょうどあなたがテキストを表示するために使用しているフォントをチェックします。 – Fryderyk

関連する問題