私は生テキストで単語nグラムのテクニックを使うことを考えています。しかし、私は疑問があります:元のテキスト上または補題/ステミングプロセス後に単語nグラムを計算しますか?
テキストに字形/語幹を適用した後、意味のある単語nグラムがありますか?そうでない場合、なぜ生のファイルにのみnグラムを使用すべきですか?長所と短所は何ですか?
私は生テキストで単語nグラムのテクニックを使うことを考えています。しかし、私は疑問があります:元のテキスト上または補題/ステミングプロセス後に単語nグラムを計算しますか?
テキストに字形/語幹を適用した後、意味のある単語nグラムがありますか?そうでない場合、なぜ生のファイルにのみnグラムを使用すべきですか?長所と短所は何ですか?
コンピューティングワードnグラム化またはステミング後は、ステミングする前と同じ理由で行われます。場合によっては、(D3)などの誤ったポジションが得られることもありますが、そのような意味のある方法でリコールを増加させるのが通常です。
一部のドメインでは、例えば、短いテキストの場合、ステミングが傷つく可能性があります。テストするのが最善の方法ですが、一般的にはステミングと大文字小文字の区別をお勧めしますが、実際にはドメインとクエリに依存します。
Q = "前科"
これは精度/リコールのトレードオフです。 (いつでも)ステミングでリコールを増やすことができます。しかし、あなたが提供しているクエリの種類によって異なります。たとえば、コード検索を実行している場合、ユーザーは正確なシンボル名を入力して見つけようとしているので、決して踏み外したり前処理したりすることはほとんどありません。
文字nグラムについて聞いていますか? (例えば、食品 - > "")または単語nグラムについて? (例えば、 "原文原文" - > "原文原文"、 "原文")。 –
忘れました。私は単語nグラムについて話しています。ありがとう。 – Ghemon