PDFBox、FontBoxなどを使用してPDFをテキストに解析する際のフォントの問題

pdfbox apipdfからテキストを抽出しています。
私のプログラムは、それが実際にPDFファイルからテキストを抽出しているが、PDF内のテキストの問題のフォントがCDAC-GISTSurekh（ヒンディー語フォント）にあり、私のプログラムの出力は、それがManglaにある同じフォントではなく、正常に動作しています。
pdfのテキストにも一致しません。
同じフォント（CDAC-GISTSurekh（ヒンディー語のフォント））をダウンロードしてコンピュータフォントに追加しましたが、出力はManglaでフォーマットされています。
解析中に出力のフォントを変更する方法はありますか？PDFBox、FontBoxなどを使用してPDFをテキストに解析する際のフォントの問題

は、任意の助けに感謝..私は書かれている

コード：

 


    import java.io.File; 
    import java.io.FileInputStream; 
    import java.io.IOException; 
    import org.apache.pdfbox.cos.COSDocument; 
    import org.apache.pdfbox.pdfparser.PDFParser; 
    import org.apache.pdfbox.pdmodel.PDDocument; 
    import org.apache.pdfbox.util.PDFTextStripper; 

    public class PDFTextParser { 
     static String pdftoText(String fileName) { 
      PDFParser parser; 
      String parsedText = null; 
      PDFTextStripper pdfStripper = null; 
      PDDocument pdDoc = null; 
      COSDocument cosDoc = null; 
      File file = new File(fileName); 
      if (!file.isFile()) { 
       System.out.println("File " + fileName + " does not exist."); 
       return null; 
      } 
      try { 
       parser = new PDFParser(new FileInputStream(file)); 
      } catch (IOException e) { 
       System.out.println("Unable to open PDF Parser. " + e.getMessage()); 
       return null; 
      } 
      try { 
       parser.parse(); 
       cosDoc = parser.getDocument(); 
       pdfStripper = new PDFTextStripper(); 
       pdDoc = new PDDocument(cosDoc); 
       pdfStripper.setStartPage(1); 
       pdfStripper.setEndPage(5); 
       parsedText = pdfStripper.getText(pdDoc); 
      } catch (Exception e) { 
         e.printStackTrace(); 
       System.out.println("An exception occured in parsing the PDF Document."+ e.getMessage()); 
      } finally { 
       try { 
        if (cosDoc != null) 
         cosDoc.close(); 
        if (pdDoc != null) 
         pdDoc.close(); 
       } catch (Exception e) { 
        e.printStackTrace(); 
       } 
      } 
      return parsedText; 
     } 
     public static void main(String args[]){ 
      System.out.println(pdftoText("J:\\Users\\Shantanu\\Documents\\NetBeansProjects\\Pdf\\src\\PDfman\\A0410001.pdf")); 
     } 
    }

出典

2011-09-17 Shantanu

あなたは有権者リストを読もうとしていますか？はい、私が見つけたことは、テキストがイメージ形式であるため、それを解析するのが非常に難しいことです。同じことをやろうとしています。それを解析する際に。 –

を使用すると、以下の構文新しいPdfStripperオブジェクト、ユーザを作成し、そのためのエンコーディングを指定します。（ISO -xxx）をPDFで使用される文字エンコーディングです

PdfTextStripper pdfStripper = new PDFTextStripper(ISO-XXXX)

。

出典

2012-08-19 01:20:49 Yonkee

コードはどこにありますか？ pdfがどのISOコードで保存されたかを知る方法はありますか？ –

@Yonkee argで利用可能なコンストラクタはありません – varpekv

PDFBox、FontBoxなどを使用してPDFをテキストに解析する際のフォントの問題

答えて

関連する問題