PDFBoxを使用してPDFからテキストを抽出しています。 PDFは非常にシンプルで、列は非常に幅広く離れています。PDFBoxのテキスト抽出で「長い」スペースを残す
これはすべての種類の水平スペースが1つのスペース文字に変換されることを除いて、本当にうまく動作します。もはや列を分けることはできません(列内の単語内のスペースは、列間のスペースのように見えます)。
一般的な解決策は非常に難しいと思いますが、この場合は列が実際には離れているため、「長いスペース」と「単語間のスペース」を単純に区別するだけで十分です。
xインチ以上の水平空白を1つのスペース以外に変えるようにPDFBoxに指示する方法はありますか?比例的なアプローチ(xインチはyスペースになります)でも動作します。
pdftotext C library/toolにはレイアウトを保存しようとする '-layout'スイッチがあります。基本的に、私がPDFBoxでそれをエミュレートすることができれば、それは完璧です。
[この回答](https://stackoverflow.com/a/45842515/1729265)をご覧ください。 – mkl