2017-12-06 10 views
0

これは初めてのスタックオーバーフローです。貴重な情報を提供し、お互いを助けてくれたことに感謝します。Apache solrは、アップロードされた実際のファイルを保存できますか?

私は現在Apache Solr 7で作業しています。この質問をここに置く時間が少ないので、完了する必要があるPOCがあります。 WindowsマシンにSOLRをセットアップしました。私はコアを作成し、管理UIから/ update/extractを使用してPDFドキュメントをアップロードしました。アップロード後、管理UIからクエリボタンを使用してクエリを実行すると、ファイルのメタデータが表示されます。私はPDFのactuslコンテンツも取得できるかどうか疑問に思っていました。私は、1つのtlogファイルが/ data/tlog/tlog000 ...の下で生成されることを見ることができます。実際のファイルではなく生のPDFデータで生成されます。

質問は、 です。1. PDFコンテンツを入手できますか? 2. Solrは実際のファイルをどこかに保存していますか? a。もしそれがどこに格納されていれば? b。それが格納されていない場合は、ファイルを格納する方法はありますか?

よろしく、 ミュニッシュ・アローラ

答えて

1

Solrには、どこでも、実際のファイルの痛みではないでしょう。 あなたの設定に応じてバイナリコンテンツを保存することができます。 抽出要求ハンドラを使用するApache SolrはApache Tika [1]を使用して文書[2]からコンテンツを抽出しています。

あなたが好きなので、pdfの内容と他の多くのメタデータを検索して返すことができます。

は、[1]

[2] https://lucene.apache.org/solr/guide/6_6/uploading-data-with-solr-cell-using-apache-tika.html

+0

https://tika.apache.org/は私の疑問をクリアするためにあなたのアレッサンドロ・ベネデッティありがとうございます。 – Munish

関連する問題