2016-10-11 13 views
0

SGDを使用して線形回帰を実行することで、yelpのレビューが正か否かを予測しようとしています。
私は2つの異なる特徴抽出器を試しました。
最初は文字nグラムで、2番目はスペースで単語を区切っていました。
しかし、文字nグラムに対して異なるn値を試したところ、最良のテストエラーをもたらしたn値がわかりました。
このテストエラー(私のテストデータで0.27)は、スペースで区切られた単語を抽出したテストエラーとほぼ同じであることに気付きました。

この偶然の背後には理由がありますか?
文字の特徴よりも多くの特徴を抽出したので、文字n-gramのテストエラーが低くなるはずはありませんか?NLPの文字の特徴とNLPの単語の特徴

文字nグラム:ex。 N = 7 "良いレストラン" => "Goodres" "oodrest" "odresta" "drestau" "restaur" "estaura" "stauran" "taurant"

ワード機能: "" =>「良い良いレストラン"" restaurant "

+0

あなたの質問は、NLPの機能選択と機能エンジニアリングに関するものです。そのように、それは姉妹サイトに属している[CrossValidated](http://stats.stackexchange.com) – smci

+0

文字N-gramはNLPには適していません。 NLPの世界では、nグラムは「単語」nグラムを意味すると思います。私たちはCJKトークナイザを使ったSolrを持っています。その用語は、NLPやテキストマイニングIMHOではまったく役に立たないです。私は2018年にテキストマイニングプロジェクトの代わりに別の辞書ベースのトークナイザを探しています。私はまた、RスタジオとRWordsegを使って、Solrを何か他のものと使う代わりにテキストマイニングを行うことも考えています。 –

答えて

3

nグラム法のように見えるのは、精度に寄与しない重複した多数の機能を単純に作成したようなものです。