2016-03-26 8 views
0

PDFファイル内のデータを抽出し、CSV/Excelシートの形式で表示したいこれはjava.beutのTikaライブラリを使って行うことができることを知りました。単純なテキストとしてデータを抽出する方法については解りましたが、Excelシートに保存する方法を知りたいと思います。Tikaやその他のライブラリを使用してPDFファイルからデータを抽出し、CSV/Excel形式で保存する方法

誰かが以前にこの種の仕事をしていたら、私を助けてください。

答えて

1

最初の部分(および難しい部分)は元のデータを解析し、それを表として解釈することです。 Apache Tikaはxhtml表現を提供します(またはSAXイベントで独自のハンドラを呼び出します)が、通常はテーブルを作成しません。 pdfファイルからは、pdfはそれ自体が表形式ではないので、私は意味します。

したがって、ティカ製の段落を分割し、分割して結果のセルをcsv/xls/xlsxライターに渡す必要があります。 pdf(テーブル行ごとに1行、クリーンなセルの論理区切りなど)で定期的なテーブルがあるとうまくいく可能性があります。しかし、それはもちろん、プレーンテキストを解析するように見えます。

私がうまくいかない場合は、pdfパーサー(Apache PDFBoxのような)を取り、その出力を解釈してみる必要があります。

2番目の部分(出力)は単純です。 csv/ssv/tsvがあなたに適している場合は、あなたの好むライブラリを使ってそれを作ります(Apache commons-csvをお勧めします)。 しかし、MS ExcelはUTF-8とUTF-16 csvのBOMが1バイトエンコーディング(CP-1252など)でないことを理解する必要があることを考慮してください。

Excel xlsまたはxlsxの形式を使用する場合は、Apache POIと書いてください。

関連する問題