2012-03-04 11 views
1

私の使用例は、メタデータ・ファイルとバイナリPDFファイルの2つのファイルを一意のsolr idに索引付けすることです。メタデータファイルはXMLファイルの形式でコンテンツを持ち、一部のスキーマフィールドはそのXMLファイル内の要素にマップされます。複数のドキュメントの索引付けと一意のsolr idへのマッピング

私の行うこと:PDFファイル(pdftotextを使用)からコンテンツを抽出し、そのコンテンツを処理して特定の情報を取得します(例:PDFの最初のページ/行には、検索された情報(医学/研究段階)は索引付けされる必要があり、検索/分類/ファセットを可能にする必要があります。

情報を取得してXMLファイルを作成できます(これをメタデータファイルと呼びます)。今では私のスキーマが

と仮定して
<field name="medicine" type="text" stored="true" indexed="true"/> 
<field name="researchStage". ../> 

このメタデータファイルとPDFファイルをSolrに入れる方法はありますか?私が試してみました何

:アーカイブ内の提案に基づいて

  1. を、私はこれらのファイルを圧縮し、ExtractRequestHandlerに与えました。私はすべてのコンテンツをSOLRに入れて検索可能にしました。しかし、zipファイルの内容として表示されます(この作業を行うためには、Solrコードベースにいくつかのパッチを適用する必要がありました)。しかし、メタデータファイルの内容がフィールド名にマッピングされていないため、これでは不十分です。 カールは "http:// localhostを:?8983/Solrの/更新/抽出literal.id = DOC1 & =真コミット" 私はDataImportHandlerで動作するようにしようとした-F "[email protected]"

  2. を(binURLdatasource )。しかし、私はそれがどのように機能するのか分かりません。だから遠くに行くことができなかった。

  3. 私は、PDF自体にメタデータタグを追加することを考えました。これを行うには、ExtractrequestHandlerがこのメタデータを処理する必要があります。私はそれもどちらか分かりません。 私は "pdftk"を使ってメタデータを追加しようとしました。カスタムタグを追加できませんでした。それはタイトル/著者/キーワードなどを更新/追加するだけです。誰も似たようなUnixツールを知っていますか?

誰かがヒントを持っている場合は、共有してください。 1つのファイルを作成しないようにしたい(PDFテキストとメタデータファイルをマージする)。以下のようなファイルrecord1234.pdfとメタデータが与えられ

+0

Solrを使用してPDFファイルのインデックスを作成するか、PDFファイルの* content *をSolrインデックスに実際に追加することを意味しますか? –

答えて

1

<metadata> 
<field1>value1</field1> 
<field2>value2</field2> 
<field3>value3</field3> 
</metadata> 

curl "http://localhost:8983/solr/update/extract? 
literal.id=record1234.pdf 
&literal.field1=value1 
&literal.field2=value2 
&literal.field3=value3 
&captureAttr=true&defaultField=text&capture=div&fmap.div=foo_txt&boost.foo_txt=3&" -F "[email protected]" 
http://wiki.apache.org/solr/ExtractingRequestHandler#Literalsから適応

のプログラムと同等の操作を行います。

これにより、Tika/Solr CELの出力textと指定したフィールドを含む索引に新しい項目が作成されます。

これらの操作は、ご使用の言語で実行する必要があります。


彼らはその後、動的なフィールドを使用して、事前に定義されたフィールドにマッピングいけない場合は、メタデータファイルの内容は、フィールド名

にマップされていません。たとえば、*_iを整数フィールドに設定できます。

1ファイルの作成を避けたい(PDFテキストとメタデータファイルをマージして)。

これはプログラマーの疲れのように見えます.-)しかし、あなたは良い理由がありますか?

関連する問題