2016-12-21 7 views
0

apache tikaを使用して、.one、.onetoc、.onetoc2ファイルのMIMEタイプを検出できるようにします。しかし、彼らのドキュメントhttps://tika.apache.org/1.14/formats.htmlからそれをサポートしていないようです。 Tikaを使った純粋なファイル解析技術を使って、私はいつもapplication/onenoteではなくapplication/octet-streamを取得します。Apache TikaパーサーのOneNoteサポート

これらは、MIMEタイプを決定するためにベースの拡張と名前ベースのイントロスペクションをサポートしていますが、私はいつもファイル* .oneに名前を付けることができず、MIMEタイプを 'application/onenote'

特定のファイルがonenoteタイプであるかどうかを簡単に検出できるライブラリがあれば、私はTikaで見つからないものがありますか?

+0

小さなライセンスファイルを作成できますか?テスト用に使用できるApacheライセンスの下に置いていただければ幸いですか? – Gagravarr

答えて

1

mime-magicによって駆動されるOneNoteファイル検出では、Apache Tika 1.15を待つか、コミットaa448a3b7e61f9a46efd1bf3f2ac72e6a3852d8fを含むnightly/gitビルドを実行する必要があります。

さらにお気軽にTIKA-2224さん、このバグを報告してください。 2016年12月現在では、検出テストに使用するために、さらに少数のサンプルテスト用のOneNoteファイルが必要です。可能であれば、それらをバグに追加してください!

また、今のところ、.oneおよび.onetoc形式の魔法に基づく検出のみがサポートされています。利用可能なパーサはありません。詳細については、this Tika mailing list threadを参照してください。

+0

ありがとう!私は貢献してうれしいです - 私はいくつかのファイルを押してみましょう。 – Keshi

関連する問題