@ tilman-hausherrありがとうございました。彼らと一緒に、私は自分の問題をデバッグすることができました。
ソートオプションを省略しても問題ありませんでした(私が今作業しているプロジェクトでなぜ以前に使用されたのか分かりません)、pdfbox-1.8.13
でもスクランブリングの問題が解決されました。そして、あなたが正しいことは、pdfbox-2.0.7
を使ったテキスト抽出結果がさらに良い結果をもたらしたということです。
私はpdfbox-1.8.13
で使用していた関連するJavaコードの断片であった:
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
...
PDDocument doc = PDDocument.load(file);
PDFTextStripper textStripper = new PDFTextStripper();
textStripper.setSortByPosition(true);
String text = textStripper.getText(doc);
私が正しく理解していれば、pdfbox-1.8.13
からpdfbox-2.0.7
に行く単純なテキストを抽出するためのAPIが同じではありませんが、非常によく似ました、 PDFTextStripper
はちょうどtext
にutil
から移動されました:
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
...
PDDocument doc = PDDocument.load(file);
PDFTextStripper textStripper = new PDFTextStripper();
// textStripper.setSortByPosition(true);
String text = textStripper.getText(doc);
に関するすべてのこののを見つけるには、コマンドリットルを言ったようにINEツールは非常に有用だったと、ここでは異なるオプション(https://pdfbox.apache.org/1.8/commandline.htmlとhttps://pdfbox.apache.org/2.0/commandline.html)とテキスト抽出の結果は以下のとおりです。
のjava -jar pdfboxアプリ-1.8.13.jar ExtractText -sort "20170801 Rechnung.pdf":
SVecramlaöbgleenCsavpeitrawl HRBPrinzregentenstra.l4tu8ng GmbH GUSest-I
2d1N7r7.7D8E,3A0m0t4s3g4e7ri7c4ht München Seite 1 von 1
80538 München ErikcPhoädftzsufwüheritu,nFglo: rian Prucker
のjava -jar pdfboxアプリ-1.8.13.jar ExtractText "20170801 Rechnung.pdf":
Scalable CapitalVermögensverwaltung GmbHPrinzregentenstr. 4880538 München
HRB 217778, Amtsgericht MünchenUSt-IdNr. DE300434774Geschäftsführung:Erik
Podzuweit, Florian Prucker
Seite 1 von 1
のjava -jar pdfboxアプリ-2.0.7.jar ExtractText -sort」 20170801改訂。PDF ":
Scalable Capital HRB 217778, Amtsgericht München Seite 1 von 1
Vermögensverwaltung GmbH USt-IdNr. DE300434774
Prinzregentenstr. 48 Geschäftsführung:
80538 München Erik Podzuweit, Florian Prucker
のjava -jar pdfboxアプリ-2.0.7.jarのExtractText "20170801 Rechnung.pdf"
Scalable Capital
Vermögensverwaltung GmbH
Prinzregentenstr. 48
80538 München
HRB 217778, Amtsgericht München
USt-IdNr. DE300434774
Geschäftsführung:
Erik Podzuweit, Florian Prucker
Seite 1 von 1
は、だから私はpdfbox-2.0.7
は特になくて、このケースで素敵な結果を与えると思いますオプションの有無にかかわらず、pdfbox-1.8.3
が同じ結果を出したので、-sort
オプションを使用すると、アルゴリズムが異なる動作をする理由がわからなくても同じ結果が得られます。
PDFを共有ホストにアップロードしてからリンクを投稿してください、wikisend、ファイルドロッパーなど –
ExtractTextコマンドラインアプリケーションでテストすることもできます。ダウンロードサイトからpdfbox-appをダウンロードするだけです。 –
2.0.7では明らかに優れています。簡単なテキスト抽出のAPIは同じです。 –