意味のない英語のコンポーネントを識別するのに役立つアルゴリズムやライブラリがあるのでしょうか?例:非常に深刻文法エラー?もしそうなら、あなたはそれがどのように機能するか説明することができますか?それは私が実際にそれを実装したり、自分のプロジェクトに使ったりしたいからです。英語の文章で意味を持たないコンポーネントを特定する
ここでは、ランダムな例です:文で
:「私はハローなどのページので、ドアを閉めました。」
人間は、[so etc page hello]が意味をなさないことをすぐに特定できます。文字列が意味を持たず、文法エラーも含まれていることをマシンが指摘することは可能でしょうか?
このような解決策がある場合、その正確さはどれくらいですか?例えば、英語の文章のクリップが与えられていれば、そのアルゴリズムはどれほど意味のあるかを示すメジャーを返すか、そのクリップを修正することは可能ですか?どうもありがとうございました!
PS:CMUのリンク文法とNLTKライブラリを見てきました。しかし、私はパーサーが文を受け入れない場合、私がしたいことをやるために例えばリンク文法パーサをどのように使うべきかわからない、それをどのように調整してそれをどの部分に教えているのかわからないNLTKがそれをサポートしているかどうかは分かりません。
私が問題を解決するために持っていたもう一つの考えは、単語の組み合わせの頻度を見ることです。私は現在、非常に重大なエラーだけを修正することに興味があるので、 「重大エラー」とは、文のクリップ内の単語がほとんど一緒に使用されない場合、すなわち、コンボの頻度が文中の他のコンボの頻度よりもはるかに低い場合であると定義する場合。
たとえば、上記の例では、[so etc page hello]これら4つの単語は実際にほとんど一緒に発生しません。私のアイデアの一つの直感は、私がGoogleにこのようなコンボを入力したときから来ています。では、Googleのような頻度情報を提供するライブラリはありますか?そのような頻度は、単語コンボの正しさについての良いヒントを与えるかもしれない。
これはマルコフチェーンとも呼ばれます。以前私のコメントで述べたように、これは一般的なプログラミングの課題です。 – tripleee
ありがとう!言語モデルは私に多くの洞察を与える! –