私は、Rで言語モデルを構築して、前の単語に基づいて文中の次の単語を予測します。現在、私のモデルはKneser-Neyスムージングを使った単純なngramモデルです。それは、スムージングが低次ngramを補間する方法を提供するトレーニングセットにおいて最大確率(頻度)を有するngramを見つけることによって次の単語を予測する。これは高次ngramが低頻度であり、信頼できる予測を提供しない場合に有利であり得る。この方法は合理的にうまくいくが、nグラムが文脈を捉えることができない場合には失敗する。たとえば、「暖かくて晴れていて、外に出よう...」「外に寒くて雨が降っている、行ってみましょう...」は、天気の状況が捕捉されないため、同じ予測を示唆します最後のnグラムで(nと仮定すると< 5)。R内のtext2vecで次の単語を予測する
私はより高度な方法を検討しており、同様の意味を持つ単語が同様の(近い)ベクトルで表されるベクトル空間に単語をマップすることを可能にするtext2vecパッケージを発見しました。私は、この表現が次の単語予測に役立つと感じていますが、訓練作業をどのように定義するかを正確に把握することはできません。私の疑問は、text2vecが次の単語予測に使用する正しいツールであるかどうかです。もしそうなら、このタスクに使用できる適切な予測アルゴリズムは何ですか?
RNNLMのR実装があるかどうか知っていますか? – Sasha
おそらく私の推測ではないでしょう。 – Aaron