私が実装している2つの機能の新しいアイデアを探しています。セグメンテーションとコロケーション
1)テキストセグメンテーション機能:
Ex:
User Query: Resolved Query:
----------- ---------------
It has lotsofwordstogether It has lots of words together
I am using normal recursion or DP solution using unigrams probability.
2)コロケーションの種類:
Ex:
User Query: Resolved Query:
---------- ---------------
I like t shirts in Wal mart I like t-shirts in Walmart
これに行う方法はありません手掛かり。私が現在考えているのは、文章をトークン化し、意味のないトークンを前のトークンまたは次のトークンと組み合わせて、ユニグラムに対してチェックできる単語を形成することだけです。
これらのソリューションは私の要件(特に最初のもの)が遅いです。 これらの機能を一緒に使いたいです。より良いアイデアを探しています。
こちらは初めてのものです。あなたはthis.Howでいくつかの本やオンラインソースを指すことができますどのようにTシャツは、文字Nグラムを使用して解決される? – starkk92