.docxドキュメントから行を抽出することは可能ですか？

.docxドキュメントから行を抽出することはできますか？.docxドキュメントから行を抽出することは可能ですか？

「\ n」を押したときにユーザーが作成した行を意味するものではなく、ファイルを開くときに表示される.docxの行（ソフトテキストの折り返し）を意味します。

私の好みはPythonでこれを行うことです（私は.docx Pythonライブラリを認識していますが、私はそれがトリックではないと思います）。しかし、プログラミング言語は、私が望むものを私に提供する限り、歓迎します。

ありがとうございます！

2017-11-14 Alex

バイトを読み取ってループすることはできますが、わかりにくいです（https://pastebin.com/nKe0rySF）。あなたがテキストでそれを望むなら、あなたはそれのためにライブラリを使うことができますが、あなたはラッパーを望んでいたと言いました。 – Neil

私はそれをかなりキャッチすることはできません。単語の文書の行を何に抽出しますか？あなたはPythonでそれらを見たいですか？あなたはtxtでそれらを保存したいですか？ – Ethan

私はそれがApache POIで可能であるべきだと思います。そのプロジェクトを見てください –

あなたの問題/質問を正しく理解しているかどうかはわかりませんが、私は同じ問題を数週間扱っていました。私はdocxファイルを行ごとにtxtファイルにパーズするのに成功しました。私はこのコードがあなたにも役立つことを願っています。英語で書くことについての限られた知識のため申し訳ありません。

public class parseDocx { 
public static void parse(String src,String dest) { 
    try { 
     FileInputStream fis = new FileInputStream(src); 
     XWPFDocument docx = new XWPFDocument(OPCPackage.open(fis)); 
     XWPFWordExtractor extractor = new XWPFWordExtractor(docx); 
     FileWriter fw = new FileWriter(dest); 
     String[] Linelist = extractor.getText().split("[\\r?\\n]+"); 
     for(String str : Linelist){ 
      fw.write(str + "\r\n"); 
     } 
     fw.flush(); 
     fis.close(); 
     fw.close(); 
     System.out.println(extractor.getText()); 
    }catch(IOException | InvalidFormatException ex) {} 
}

上記のコードでは、system.out行を削除できます。srcはソースファイルのディレクトリを表し、destはコピー先ファイルのディレクトリを表します。

出典

2018-01-18 12:51:10

.docxドキュメントから行を抽出することは可能ですか？

答えて

関連する問題