ElasticSearch 5.0.0インジェスト・アタッチメントプラグインの問題

this post ElasticSearch 5.0.0インジェスト・アタッチメントプラグインの問題

私のEnvを参照してください：

{ "name" : "node-0", 
    "cluster_name" : "ES500-JBD-0", 
    "cluster_uuid" : "q_akJRkrSI-glTwT5vfH4A", 
    "version" : { 
    "number" : "5.0.0", 
    "build_hash" : "253032b", 
    "build_date" : "2016-10-26T04:37:51.531Z", 
    "build_snapshot" : false, 
    "lucene_version" : "6.2.0" }, 
    "tagline" : "You Know, for Search" 
}

インデックス&パイプラインの作成（編集3）：

curl -XPUT 'vm01.jbdata.fr:9200/_ingest/pipeline/attachment' -d '{ 
    "description" : "Extract attachment information", 
    "processors" : [ 
    { 
     "attachment" : { 
     "field" : "data", 
     "indexed_chars" : -1 
     } 
    } 
    ] 
}'

マッピング作成（編集4）フランス語：

curl -XPUT 'vm01.jbdata.fr:9200/ged-idx-00' -d '{ 
    "mappings" : { 
    "ged_type_0" : { 
     "properties" : { 
     "attachment.data" : { 
      "type": "text", 
      "analyzer" : "french" 
      } 
     } 
     } 
    } 
}'

ES特定の設定（編集1 & 編集2）：設定から

$ bin/elasticsearch-plugin list 
ingest-attachment

/elasticsearch.yml

plugin.mandatory: ingest-attachment

コマンドSに私ndex PDF：

1/"raw" PDF。

curl -H 'Content-Type: application/pdf' -XPUT vm01.jbdata.fr:9200/ged-idx-00?pipeline=attachment -d @/tmp/zookeeperAdmin.pdf

{"error":{"root_cause":[{"type":"settings_exception","reason":"Failed to load settings from [%PDF-1.4%�� ... 0D33957F>]>>startxref76764%%EOF; line: 1, column: 2]"}},"status":500}

2/A "B64ed" PDF。正しくingest-attachmentプラグイントンインデックスPDFを使用する方法

aPath='/tmp/zookeeperAdmin.pdf' 
aB64content=$(base64 $aPath | perl -pe 's/\n/\\n/g') 
echo $aB64content > /tmp/zookeeperAdmin.pdf.b64 
curl -XPUT "http://vm01.jbdata.fr:9200/ged-idx-00?pipeline=attachment" -d '{ 
    "file" : "content" : "'$aB64content'" 
}'

{"error":{"root_cause":... "reason":"failed to parse source for create index","caused_by":{"type":"json_parse_exception","reason":"Unexpected character (':' (code 58)): was expecting comma to separate Object entries\n at [Source: [email protected]; line: 2, column: 25]"}},"status":400}

？

出典

2016-11-17 jbigdata.fr

あなたはそれを修正できましたか？ – Evis

私の経験から、ファイルをBase64でエンコードする必要があるため、オプション2を使用するとよいでしょう。あなたの最後の試みについて

：、したがって、エラー

curl -XPUT "http://vm01.jbdata.fr:9200/ged-idx-00?pipeline=attachment" -d '{ 
    "file" : "content" : "'$aB64content'" 
}'

提供JSONは（：： "B" "C" "A"）不正な形式です。

あなたのパイプラインの作成時に指定した、あなただけのデータフィールドが必要なので、次は、トリックを行う必要があるとして：実際には

curl -XPUT "http://vm01.jbdata.fr:9200/ged-idx-00?pipeline=attachment" -d '{ 
    "data" : "'$aB64content'" 
}'

出典

2016-12-12 02:55:43 Laks

'curl -XPUT" http://192.168.56.101:9200/ged-idx-00？""データ "：" $ aB64content "" **エラー：** ... sh：7行目：/ usr/bin/curl：引数リストも –

を、それは多くの場合、あなたがする必要がある、適切にPDFからテキストを抽出することは非常に困難ですインラインイメージを抽出したり、ページ全体をレンダリングしたり、ページから抽出されたテキストや内容に応じてOCRします（たとえば、エンコードが正しいかどうかを分析する必要があります）。 Tikaは解析プロセス内でカスタムロジックを使用するようにチューニングすることはできません。Ingest Attachmentではこれを行うこともできません。優れた品質のPDF解析を目指している場合、Ingest Attachmentはあなたが探しているものではなく、あなた自身で行う必要があります。

詳細はこちらhttps://blog.ambar.cloud/ingest-attachment-plugin-for-elasticsearch-should-you-use-it/

出典

2017-04-04 13:52:42 SochiX

[fscrawler]（https://github.com/dadoonet/fscrawler）は、ESを使用してドキュメントをインデックス登録する作業を行います。 –

[link]（http://jbigdata.fr/jbigdata/ged-02.html）索引付けの質についてのカステスディ。 –

ElasticSearch 5.0.0インジェスト・アタッチメントプラグインの問題

答えて

関連する問題