2012-03-23 3 views
3

最初の背景:私のサイトには2つの基本的なタイプのユーザーがあります。無料のアカウントを持つユーザーはドキュメントをアップロードでき、有料の顧客はそのドキュメントを検索して表示またはダウンロードできます。アップローダは所有しているドキュメントのみを表示できますが、有料の顧客は何でも見ることができます。現在、Word文書(.docまたは.docx)とプレーンテキストのみをサポートしています。 JODConverterライブラリを使用してWordとHTMLの間で変換します。 htmlはデータベースに保存されているものとユーザーに表示されるものです。
PDFの受け入れにも移行したいと思いますが、PDFを表示するか、htmlに変換するのが最適な方法がわかりません。 Googleドキュメントを使用してその場で変換を行うことを提案しましたが、Googleに一般公開されていなければならないため、アクセスを適切に制限することは現実的ではないようです。 htmlのタグ(またはPDFBoxのようなもの)を使って同じ問題に遭遇するようです。
また、PDFファイルを直接表示したり、Word文書と同様にHTMLに変換したりするのを忘れるかもしれませんが、それについてはまともなライブラリがまだありません。私がこれまで見てきたことは、それが偉大な就職転職をしていないこと、ウィンドウのみであること、あるいは多額のライセンス料があることを言っているようです。 (ライセンス料は必ずしも100ドル/年程度でなければディール・ブレーカーとは限りません)誰かが良いJava変換ライブラリーを知っていますか?
最後に、有料の顧客に元のPDFファイルをダウンロードするオプションを提供する予定です。これは、コマンドラインを介して実行されるものであれば問題ありません。それは複雑になる可能性がありますか?残りのプロセスを構築する際に留意すべきことはありますか?ウェブ上でのpdfファイルの表示(および/または変換)に関する助言が必要

答えて

1

OCR(テキストを認識する)を意味するHTMLにPDFを変換する代わりに、JPedalなどのツールを使用してPDFを画像に変換し、それらの画像に連続した順序でリンクするHTMLページを作成できます。これはJavaライブラリなので、ウィンドウだけではありません。

ダウンロード元のPDFファイルは問題ではありません。ヘッダーの標準PDF拡張子:application/pdfにMIMEタイプを設定するだけです。

+1

私はそれがうまくいくと思います。しかし、私たちの顧客は、ドキュメントを閲覧するときに強調表示された検索用語を見ることに慣れています。プラスは、文書からコピー&ペーストする機能を無効にします。もちろん、それは私がどのような解決策をとるかにかかわらず問題になる可能性があります。 – joshg

+2

http://www.jpedal.org/html_index.phpでJPedalに基づくHTML5コンバータの商用PDFもあります。 –

+1

@mark - 実際に使用している人は誰ですか?その価格はかなり険しいですが、実際にうまくいけば私の上司はそれのために行くかもしれません。 – joshg

関連する問題