2017-02-07 10 views
0

私が実装している2つの機能の新しいアイデアを探しています。セグメンテーションとコロケーション

1)テキストセグメンテーション機能:

Ex: 
        User Query:     Resolved Query: 
        -----------     --------------- 
      It has lotsofwordstogether It has lots of words together 

    I am using normal recursion or DP solution using unigrams probability. 

2)コロケーションの種類:

Ex: 
     User Query:      Resolved Query: 
     ----------      --------------- 
    I like t shirts in Wal mart  I like t-shirts in Walmart 

これに行う方法はありません手掛かり。私が現在考えているのは、文章をトークン化し、意味のないトークンを前のトークンまたは次のトークンと組み合わせて、ユニグラムに対してチェックできる単語を形成することだけです。

これらのソリューションは私の要件(特に最初のもの)が遅いです。 これらの機能を一緒に使いたいです。より良いアイデアを探しています。

答えて

0

標準アプローチには、nグラムの文字が含まれていると思います。

「ウォールマート」は「ウォール」「アルム」「ルーマ」「マル」「アート」になるでしょう。

+0

こちらは初めてのものです。あなたはthis.Howでいくつかの本やオンラインソースを指すことができますどのようにTシャツは、文字Nグラムを使用して解決される? – starkk92

0

問題1)では、単語境界を見つけるために、東アジア言語をトークン化するための既存のアルゴリズムを使用できます。彼らは通常、隠れマルコフモデルを適用することを含む:

私はまた、あなたが提供する辞書を見つけることができる特別な場合には、(文脈自由文法を解析するために使用される)CKYアルゴリズムを適用すると考えることができ

http://dev.datasift.com/blog/using-japanese-tokenization-generate-more-accurate-insight

https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html

音節セグメンテーション、および音節インベントリを含む。

問題2)は、綴り修正の単なる例だと思います。他のキャラクターを扱うようにスペースを扱うだけです。

私はより多くのリンクを掲載したいと思いますが、評判は十分ではありません。

これらは簡単な問題ではありません、幸運!

関連する問題