セグメンテーションとコロケーション

私が実装している2つの機能の新しいアイデアを探しています。セグメンテーションとコロケーション

1）テキストセグメンテーション機能：

Ex: 
        User Query:     Resolved Query: 
        -----------     --------------- 
      It has lotsofwordstogether It has lots of words together 

    I am using normal recursion or DP solution using unigrams probability.

2）コロケーションの種類：

Ex: 
     User Query:      Resolved Query: 
     ----------      --------------- 
    I like t shirts in Wal mart  I like t-shirts in Walmart

これに行う方法はありません手掛かり。私が現在考えているのは、文章をトークン化し、意味のないトークンを前のトークンまたは次のトークンと組み合わせて、ユニグラムに対してチェックできる単語を形成することだけです。

これらのソリューションは私の要件（特に最初のもの）が遅いです。これらの機能を一緒に使いたいです。より良いアイデアを探しています。

出典

2017-02-07 starkk92

標準アプローチには、nグラムの文字が含まれていると思います。

「ウォールマート」は「ウォール」「アルム」「ルーマ」「マル」「アート」になるでしょう。

出典

2017-02-07 20:34:22

こちらは初めてのものです。あなたはthis.Howでいくつかの本やオンラインソースを指すことができますどのようにTシャツは、文字Nグラムを使用して解決される？ – starkk92

問題1）では、単語境界を見つけるために、東アジア言語をトークン化するための既存のアルゴリズムを使用できます。彼らは通常、隠れマルコフモデルを適用することを含む：

私はまた、あなたが提供する辞書を見つけることができる特別な場合には、（文脈自由文法を解析するために使用される）CKYアルゴリズムを適用すると考えることができ

http://dev.datasift.com/blog/using-japanese-tokenization-generate-more-accurate-insight

https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html

音節セグメンテーション、および音節インベントリを含む。

問題2）は、綴り修正の単なる例だと思います。他のキャラクターを扱うようにスペースを扱うだけです。

私はより多くのリンクを掲載したいと思いますが、評判は十分ではありません。

これらは簡単な問題ではありません、幸運！

出典

2017-05-26 08:58:15 Julio

セグメンテーションとコロケーション

答えて

関連する問題