NLPを初めて使用していて、非常に簡単な質問がありますが、多くの質問がありますが、正直なところどこにも見つかりませんでした:複数のタイプのngramを同じ分類子(例:unigrams + bigrams)で使用できますか?複数のngramを同じ分類子で使用できますか?
私はこれをやってみましたが、Naive Bayesの場合、少なくともbigramsよりも高い精度を示していますが(unigramsよりも低いですが)、正当な練習であるかどうかはわかりません。私の懸念事項の一つは、マルチ共線性の可能性があるということです。それは適用可能な用語でもあります。つまり、「運」と「幸運」の両方が最も有益な機能リストの最上位にあります。
ありがとうございます!私はPOSタグのようなものを実装しようとします。時間があれば(プロジェクトの締め切りは遠くない)ちなみに、私の訓練データはわずか600のメッセージで構成されています(しかし、かなり長いKickstarterのコメントですが、ほんのわずかなトレーニングセットサイズを償還するつぶやきではありません)。関連するノートでは、別の質問をしないように、このような小さなデータセットと正確さ〜68-70%(私は3つのクラスがあります)は、感情分析がより深いコメント? – werblilben
長いメッセージかどうか、各メッセージが全体として評価される場合、600データポイントがあります。オーバーライドは避けてください(例:バイグラム)。許容される正確さは、あなたの目標と、現在の技術水準に関する(プロジェクトのための)目標に依存します。 – alexis
私はSAを使って様々なKickstarterプロジェクトのディスカッションでダイナミクスの鳥瞰図を取得するので、映画レビューSAのいくつかの論文は64%正確な結果が得られます。 – werblilben