2012-01-05 21 views
2

こんにちは私はPDFファイルをテキストファイルに変換します。私はPDFファイルをテキストファイルに変換しています。しかし、それは正確にPDFファイルにあるテキストのフォーマットを保持しません。PDFをテキストファイルに変換してPDFのフォーマットを保存するにはどうすればよいですか?

私を助けてください。

+1

なぜこれをやりたいですか?あなたは間違った方向にいます... –

答えて

4

テキストファイル自体には書式設定を含めることはできません。

プレーンテキストファイルにはテキストしか含まれていないため、書式設定を保持することはできません。テキストファイルの中にHTMLマークアップがあるかもしれませんが、私はこれをHTMLファイルと呼んでいます。それ以外の場合は、リッチテキスト形式(RTF)、Microsoft Word、OpenOffice、またはその他のドキュメントタイプに変換する必要があります。 PDFBoxはエリック・ロバートソンが

を言ったように、それはいくつかの書式を失うことがあり、このためのお手伝いをします

1

を参照してください。

File f = new File(fileName); 
     if (!f.isFile()) { 
      return null; 
     } 


     try { 
      parser = new PDFParser(new FileInputStream(f)); 
     } catch (Exception e) { 
      return null; 
     } 

     try { 
      parser.parse(); 
      cosDoc = parser.getDocument(); 
      pdfStripper = new PDFTextStripper(); 
      /* pdfStripper.setStartPage(2); 
      pdfStripper.setEndPage(3);*/ 
      pdDoc = new PDDocument(cosDoc); 
      parsedText = pdfStripper.getText(pdDoc); 
     } catch (Exception e) { 
      System.out.println("An exception occured in parsing the PDF Document."); 
      e.printStackTrace(); 
      try { 
        if (cosDoc != null) cosDoc.close(); 
        if (pdDoc != null) pdDoc.close(); 
       } catch (Exception e1) { 
       e.printStackTrace(); 
      } 
      return null; 
     } 
関連する問題