2016-11-17 4 views
0

this postElasticSearch 5.0.0インジェスト・アタッチメントプラグインの問題

私のEnvを参照してください:

{ "name" : "node-0", 
    "cluster_name" : "ES500-JBD-0", 
    "cluster_uuid" : "q_akJRkrSI-glTwT5vfH4A", 
    "version" : { 
    "number" : "5.0.0", 
    "build_hash" : "253032b", 
    "build_date" : "2016-10-26T04:37:51.531Z", 
    "build_snapshot" : false, 
    "lucene_version" : "6.2.0" }, 
    "tagline" : "You Know, for Search" 
} 

インデックス&パイプラインの作成(編集3):

curl -XPUT 'vm01.jbdata.fr:9200/_ingest/pipeline/attachment' -d '{ 
    "description" : "Extract attachment information", 
    "processors" : [ 
    { 
     "attachment" : { 
     "field" : "data", 
     "indexed_chars" : -1 
     } 
    } 
    ] 
}' 

マッピング作成(編集4フランス語

curl -XPUT 'vm01.jbdata.fr:9200/ged-idx-00' -d '{ 
    "mappings" : { 
    "ged_type_0" : { 
     "properties" : { 
     "attachment.data" : { 
      "type": "text", 
      "analyzer" : "french" 
      } 
     } 
     } 
    } 
}' 

ES特定の設定(編集1 & 編集2):設定から

$ bin/elasticsearch-plugin list 
ingest-attachment 

/elasticsearch.yml

plugin.mandatory: ingest-attachment 

コマンドSに私ndex PDF:

1/"raw" PDF。

curl -H 'Content-Type: application/pdf' -XPUT vm01.jbdata.fr:9200/ged-idx-00?pipeline=attachment -d @/tmp/zookeeperAdmin.pdf 

{"error":{"root_cause":[{"type":"settings_exception","reason":"Failed to load settings from [%PDF-1.4%��� ... 0D33957F>]>>startxref76764%%EOF; line: 1, column: 2]"}},"status":500}

2/A "B64ed" PDF。正しくingest-attachmentプラグイントンインデックスPDFを使用する方法

aPath='/tmp/zookeeperAdmin.pdf' 
aB64content=$(base64 $aPath | perl -pe 's/\n/\\n/g') 
echo $aB64content > /tmp/zookeeperAdmin.pdf.b64 
curl -XPUT "http://vm01.jbdata.fr:9200/ged-idx-00?pipeline=attachment" -d '{ 
    "file" : "content" : "'$aB64content'" 
}' 

{"error":{"root_cause":... "reason":"failed to parse source for create index","caused_by":{"type":"json_parse_exception","reason":"Unexpected character (':' (code 58)): was expecting comma to separate Object entries\n at [Source: [email protected]; line: 2, column: 25]"}},"status":400}

+0

あなたはそれを修正できましたか? – Evis

答えて

1

私の経験から、ファイルをBase64でエンコードする必要があるため、オプション2を使用するとよいでしょう。あなたの最後の試みについて

:、したがって、エラー

curl -XPUT "http://vm01.jbdata.fr:9200/ged-idx-00?pipeline=attachment" -d '{ 
    "file" : "content" : "'$aB64content'" 
}' 

提供JSONは(:: "B" "C" "A")不正な形式です。

あなたのパイプラインの作成時に指定した、あなただけのデータフィールドが必要なので、次は、トリックを行う必要があるとして:実際には

curl -XPUT "http://vm01.jbdata.fr:9200/ged-idx-00?pipeline=attachment" -d '{ 
    "data" : "'$aB64content'" 
}' 
+0

'curl -XPUT" http://192.168.56.101:9200/ged-idx-00?""データ ":" $ aB64content "" **エラー:** ... sh:7行目:/ usr/bin/curl:引数リストも –

0

を、それは多くの場合、あなたがする必要がある、適切にPDFからテキストを抽出することは非常に困難ですインラインイメージを抽出したり、ページ全体をレンダリングしたり、ページから抽出されたテキストや内容に応じてOCRします(たとえば、エンコードが正しいかどうかを分析する必要があります)。 Tikaは解析プロセス内でカスタムロジックを使用するようにチューニングすることはできません。Ingest Attachmentではこれを行うこともできません。優れた品質のPDF解析を目指している場合、Ingest Attachmentはあなたが探しているものではなく、あなた自身で行う必要があります。

詳細はこちらhttps://blog.ambar.cloud/ingest-attachment-plugin-for-elasticsearch-should-you-use-it/

+0

[fscrawler](https://github.com/dadoonet/fscrawler)は、ESを使用してドキュメントをインデックス登録する作業を行います。 –

+0

[link](http://jbigdata.fr/jbigdata/ged-02.html)索引付けの質についてのカステスディ。 –

関連する問題