2016-11-30 9 views
0

NLPを初めて使用していて、非常に簡単な質問がありますが、多くの質問がありますが、正直なところどこにも見つかりませんでした:複数のタイプのngramを同じ分類子(例:unigrams + bigrams)で使用できますか?複数のngramを同じ分類子で使用できますか?

私はこれをやってみましたが、Naive Bayesの場合、少なくともbigramsよりも高い精度を示していますが(unigramsよりも低いですが)、正当な練習であるかどうかはわかりません。私の懸念事項の一つは、マルチ共線性の可能性があるということです。それは適用可能な用語でもあります。つまり、「運」と「幸運」の両方が最も有益な機能リストの最上位にあります。

答えて

0

短い答えは「はい」です。長い答えは、トレーニング機能として必要なものをすべて使用できることです。しかし、私はあなたのフィーチャーに生のunigramsとbigramsを使用していると思われます。バイグラム自体がユニグラムよりもあまり役に立たない場合は、アプリケーションが有益な推論を行うのに十分なトレーニングデータがないことは明らかです。可能性の少ないより一般化しやすい上位レベルの機能(POSタグのバイグラムなど)を追加します。

+0

ありがとうございます!私はPOSタグのようなものを実装しようとします。時間があれば(プロジェクトの締め切りは遠くない)ちなみに、私の訓練データはわずか600のメッセージで構成されています(しかし、かなり長いKickstarterのコメントですが、ほんのわずかなトレーニングセットサイズを償還するつぶやきではありません)。関連するノートでは、別の質問をしないように、このような小さなデータセットと正確さ〜68-70%(私は3つのクラスがあります)は、感情分析がより深いコメント? – werblilben

+0

長いメッセージかどうか、各メッセージが全体として評価される場合、600データポイントがあります。オーバーライドは避けてください(例:バイグラム)。許容される正確さは、あなたの目標と、現在の技術水準に関する(プロジェクトのための)目標に依存します。 – alexis

+0

私はSAを使って様々なKickstarterプロジェクトのディスカッションでダイナミクスの鳥瞰図を取得するので、映画レビューSAのいくつかの論文は64%正確な結果が得られます。 – werblilben

関連する問題