2016-12-22 5 views
0

elasticsearchを搭載した大規模なデータ指向の検索製品での作業。私たちはこのアプリの上に多くの機械学習機能を構築しましたが、現在かなり標準的なNLPベースの単語タグをESインデックスに統合する方法を決定するのは困難です。ElasticsearchでのNLPタグの操作

現在、私たちは、それぞれのタイプ(またはタイプですが、今は十分に役に立つかもしれません)の単語に注釈を付けることができるタグサービスを持っています。この関数は抽象化することができます:type = getWordType(word)私は、このタグ付けサービスをインデックス時に適用される分析チェーンに統合する方法が必要であると考えています。しかし、この種の高度な分析を行うことは、私のelasticsearch能力を少し超えています。 elasticsearchでこのような高度な分析を指摘している人はいますか?

ありがとうございます!

答えて

2

Elasticsearch 5.0で導入されたingest node機能を見てみるとよいでしょう。これにより、Elasticsearchでドキュメントのインデックスを作成する前に、ドキュメントを事前処理してフィールドをJSONに追加することができます。

OpenNLPを使用してドキュメントを充実させるインジェストプロセッサを作成しました。あなたはその1つを見て、あなたのニーズに適応させることができます(また、プルの要求は非常に歓迎です)。

が、これは、二次、スタンドアローンのプロセスを経て補足データを提供し、私たちが何をしていた程度であり、https://github.com/spinscale/elasticsearch-ingest-opennlp

+0

でそれをチェックアウト。私はあなたのアプローチがより良いのが好きですが、私はここを回避しようとしていますが、両方の欠点は、入力が元の入力のマークアップではなくセカンダリフィールドを通じて提供されることです。これは今のところうまいかもしれない。 – downer

関連する問題