0

私は生テキストで単語nグラムのテクニックを使うことを考えています。しかし、私は疑問があります:元のテキスト上または補題/ステミングプロセス後に単語nグラムを計算しますか?

テキストに字形/語幹を適用した後、意味のある単語nグラムがありますか?そうでない場合、なぜ生のファイルにのみnグラムを使用すべきですか?長所と短所は何ですか?

+1

文字nグラムについて聞いていますか? (例えば、食品 - > "")または単語nグラムについて? (例えば、 "原文原文" - > "原文原文"、 "原文")。 –

+0

忘れました。私は単語nグラムについて話しています。ありがとう。 – Ghemon

答えて

1

コンピューティングワードnグラム化またはステミング後は、ステミングする前と同じ理由で行われます。場合によっては、(D3)などの誤ったポジションが得られることもありますが、そのような意味のある方法でリコールを増加させるのが通常です。

一部のドメインでは、例えば、短いテキストの場合、ステミングが傷つく可能性があります。テストするのが最善の方法ですが、一般的にはステミングと大文字小文字の区別をお勧めしますが、実際にはドメインとクエリに依存します。

Q = "前科"

  • はD1 = "... の犯罪記録 ...持っている"(茎の試合)
  • D2 =は」...リリース犯罪歴 ... "(通常は試合)
  • D3 =" ... 'スムーズ刑事' に取り組んでいる間、recordi ng ... "(ステムでの不一致)

これは精度/リコールのトレードオフです。 (いつでも)ステミングでリコールを増やすことができます。しかし、あなたが提供しているクエリの種類によって異なります。たとえば、コード検索を実行している場合、ユーザーは正確なシンボル名を入力して見つけようとしているので、決して踏み外したり前処理したりすることはほとんどありません。

関連する問題