2017-11-14 9 views
1

.docxドキュメントから行を抽出することはできますか?.docxドキュメントから行を抽出することは可能ですか?

「\ n」を押したときにユーザーが作成した行を意味するものではなく、ファイルを開くときに表示される.docxの行(ソフトテキストの折り返し)を意味します。

私の好みはPythonでこれを行うことです(私は.docx Pythonライブラリを認識していますが、私はそれがトリックではないと思います)。しかし、プログラミング言語は、私が望むものを私に提供する限り、歓迎します。

ありがとうございます!

+0

バイトを読み取ってループすることはできますが、わかりにくいです(https://pastebin.com/nKe0rySF)。あなたがテキストでそれを望むなら、あなたはそれのためにライブラリを使うことができますが、あなたはラッパーを望んでいたと言いました。 – Neil

+0

私はそれをかなりキャッチすることはできません。単語の文書の行を何に抽出しますか?あなたはPythonでそれらを見たいですか?あなたはtxtでそれらを保存したいですか? – Ethan

+0

私はそれがApache POIで可能であるべきだと思います。そのプロジェクトを見てください –

答えて

0

あなたの問題/質問を正しく理解しているかどうかはわかりませんが、私は同じ問題を数週間扱っていました。私はdocxファイルを行ごとにtxtファイルにパーズするのに成功しました。私はこのコードがあなたにも役立つことを願っています。 英語で書くことについての限られた知識のため申し訳ありません。

public class parseDocx { 
public static void parse(String src,String dest) { 
    try { 
     FileInputStream fis = new FileInputStream(src); 
     XWPFDocument docx = new XWPFDocument(OPCPackage.open(fis)); 
     XWPFWordExtractor extractor = new XWPFWordExtractor(docx); 
     FileWriter fw = new FileWriter(dest); 
     String[] Linelist = extractor.getText().split("[\\r?\\n]+"); 
     for(String str : Linelist){ 
      fw.write(str + "\r\n"); 
     } 
     fw.flush(); 
     fis.close(); 
     fw.close(); 
     System.out.println(extractor.getText()); 
    }catch(IOException | InvalidFormatException ex) {} 
} 

上記のコードでは、system.out行を削除できます。srcはソースファイルのディレクトリを表し、destはコピー先ファイルのディレクトリを表します。

関連する問題