1.PoDoFoポリッシュ文字&PdfContentsTokenizerエラー</strong> PDFファイルから<strong>
どのように取得するにはポリッシュ文字?どういうわけか教えてください
磨かれた文字が処理されますか? Becouse私は例えばł
の代わりに\200
を取得します。おもしろいことは、最初の "nonbase"文字としてł
が発生したときだけです。 PDFファイルはaaaałęąaaaa
で始まるのであれば、ł
は\200
よう\201
ようę
とą
しかしなどのPDFファイルがaaaaąęłaaaa
で始まる場合、ł
がのようにコード化され、\201
ようę
とą
、\200
のようにコーディングされていますどんなシステムでもこの文字を手に入れることができますか?
2.
私は、PDFファイルからテキストを抽出しようとしている、私はこのような何か:
string input_name = "example.pdf";
PdfMemDocument pdf(input_name.c_str());
for (int pn = 0; pn < pdf.GetPageCount(); ++pn) {
PdfPage* page = pdf.GetPage(pn);
PdfContentsTokenizer tok(page);
const char* token = nullptr;
PdfVariant var;
EPdfContentsType type;
while (tok.ReadNext(type, token, var)) {
//etc.
をしかし、私はそれが正常に動作しないPdfContentsTokenizer tok(page);
の問題を得ました。それがスムーズに行くと、他のことはinffas32.asm
ファイルにAccess violation reading location
エラーをスローいくつかのpdfファイルの場合は、669
ライン:
L_get_length_code_mmx:
pand mm4,mm0
movd eax,mm4
movq mm4,mm3
mov eax, [ebx+eax*4]//this is the error line
はところで、私はすべてのpdfファイルを同じ方法でコード化されていない気づきました。たとえば、podofobrowserを使用すると、公式のpodofo helloworldの例のテキストが表示されませんでした。Hello World!
そして、他の人のためにpdfファイルpodofobrowserは違ったやり方でテキストを表示したり、まったく表示しませんでした。
PdfString unicode = pCurFont->GetEncoding()->ConvertToUnicode(rString, pCurFont);
それは、PDFから非Unicodeテキストを抽出するために来るときこれが最も重要なラインであるを使用してPDFからポリッシュテキストをextraxtすることができます
修正パッチがここに掲載されました:https://sourceforge.net/p/podofo/mailman/message/35654027/ – Etienne
TextExtractorを試しました。それは 'ł'の作業を開始しましたが、'¶'と 'ć'のためには機能しません。 – 18C
18C、ちょうどあなたがテキストを表示するために使用しているフォントをチェックします。 – Fryderyk