Tikaやその他のライブラリを使用してPDFファイルからデータを抽出し、CSV/Excel形式で保存する方法

PDFファイル内のデータを抽出し、CSV/Excelシートの形式で表示したいこれはjava.beutのTikaライブラリを使って行うことができることを知りました。単純なテキストとしてデータを抽出する方法については解りましたが、Excelシートに保存する方法を知りたいと思います。Tikaやその他のライブラリを使用してPDFファイルからデータを抽出し、CSV/Excel形式で保存する方法

誰かが以前にこの種の仕事をしていたら、私を助けてください。

出典

2016-03-26 a874

最初の部分（および難しい部分）は元のデータを解析し、それを表として解釈することです。 Apache Tikaはxhtml表現を提供します（またはSAXイベントで独自のハンドラを呼び出します）が、通常はテーブルを作成しません。 pdfファイルからは、pdfはそれ自体が表形式ではないので、私は意味します。

したがって、ティカ製の段落を分割し、分割して結果のセルをcsv/xls/xlsxライターに渡す必要があります。 pdf（テーブル行ごとに1行、クリーンなセルの論理区切りなど）で定期的なテーブルがあるとうまくいく可能性があります。しかし、それはもちろん、プレーンテキストを解析するように見えます。

私がうまくいかない場合は、pdfパーサー（Apache PDFBoxのような）を取り、その出力を解釈してみる必要があります。

2番目の部分（出力）は単純です。 csv/ssv/tsvがあなたに適している場合は、あなたの好むライブラリを使ってそれを作ります（Apache commons-csvをお勧めします）。しかし、MS ExcelはUTF-8とUTF-16 csvのBOMが1バイトエンコーディング（CP-1252など）でないことを理解する必要があることを考慮してください。

Excel xlsまたはxlsxの形式を使用する場合は、Apache POIと書いてください。

出典

2016-03-28 17:51:42

Tikaやその他のライブラリを使用してPDFファイルからデータを抽出し、CSV/Excel形式で保存する方法

答えて

関連する問題