元のテキスト上または補題/ステミングプロセス後に単語nグラムを計算しますか？

私は生テキストで単語nグラムのテクニックを使うことを考えています。しかし、私は疑問があります：元のテキスト上または補題/ステミングプロセス後に単語nグラムを計算しますか？

テキストに字形/語幹を適用した後、意味のある単語nグラムがありますか？そうでない場合、なぜ生のファイルにのみnグラムを使用すべきですか？長所と短所は何ですか？

出典

2017-11-10 Ghemon

文字nグラムについて聞いていますか？（例えば、食品 - > ""）または単語nグラムについて？（例えば、 "原文原文" - > "原文原文"、 "原文"）。 –

忘れました。私は単語nグラムについて話しています。ありがとう。 – Ghemon

コンピューティングワードnグラム化またはステミング後は、ステミングする前と同じ理由で行われます。場合によっては、（D3）などの誤ったポジションが得られることもありますが、そのような意味のある方法でリコールを増加させるのが通常です。

一部のドメインでは、例えば、短いテキストの場合、ステミングが傷つく可能性があります。テストするのが最善の方法ですが、一般的にはステミングと大文字小文字の区別をお勧めしますが、実際にはドメインとクエリに依存します。

Q = "前科"

はD1 = "... の犯罪記録 ...持っている"（茎の試合）
D2 =は」...リリース犯罪歴 ... "（通常は試合）
D3 =" ... 'スムーズ刑事' に取り組んでいる間、recordi ng ... "（ステムでの不一致）

これは精度/リコールのトレードオフです。（いつでも）ステミングでリコールを増やすことができます。しかし、あなたが提供しているクエリの種類によって異なります。たとえば、コード検索を実行している場合、ユーザーは正確なシンボル名を入力して見つけようとしているので、決して踏み外したり前処理したりすることはほとんどありません。

出典

2017-11-13 14:06:04

元のテキスト上または補題/ステミングプロセス後に単語nグラムを計算しますか？

答えて

関連する問題