Doc2VecはSentiment Analysisに適していますか？

私は、thisのような感情分類（分析）に関する最新の記事を読んでいます。私は特徴抽出のためのトライグラムを持つ単純なTFIDFのvectoriserを使用してDoc2Vec（88％）、を使用して、同様の精度の割合に（91％）がはるかに良い結果を得ることを見つけるの例として、IMDBのデータセットを取るとDoc2VecはSentiment Analysisに適していますか？

。私はこれが表2のMikolov's 2015 paperに似ていると思います。

これよりも大きなデータセットを使用すると、これが変わると思いました。だから私はhereから1millトレーニングと1 millテストの内訳を使って実験を再開しました。残念なことに、その場合、私のtfidfベクトル化機能の抽出方法は93％に増加しましたが、doc2vecは85％に減少しました。

私はこれが予想されるのか、他の人たちがtfidfが大きなコーパスであってもdoc2vecより優れていると思っているのだろうか？

def clean_review(review): temp = BeautifulSoup(review, "lxml").get_text() punctuation = """.,?!:;(){}[]""" for char in punctuation temp = temp.replace(char, ' ' + char + ' ') words = " ".join(temp.lower().split()) + "\n" return words

そして私はDoc2Vecモデルの400と1200の機能を使用して試してみました：

マイデータ・クリーニングが簡単です

model = Doc2Vec(min_count=2, window=10, size=model_feat_size, sample=1e-4, negative=5, workers=cores)

私のTFIDFのvectoriserが40,000最大の特徴を持っているのに対し：

vectorizer = TfidfVectorizer(max_features = 40000, ngram_range = (1, 3), sublinear_tf = True)

分類のために、私はいくつかの線形met hodsは、しかし

出典

2016-07-12 Ilia Karmanov

... OK Mikolovは一度掲示サンプルコード（https://groups.google.com/d/msg/word2vec-toolkit/Q49FIrNOQRo/J6KG8mUj45sJ）を行うには、単純なロジスティック回帰を見つけオプション-cbow 0 -size 100 -window 10 -negative 5 -hs 0 -sample 1e-4 -threads 40 -binary 0 -iter 20 -min-count 1 -sentence-vectors 1使用 - gensimにdm=0, dbow_words=1, size=100, window=10, hs=0, negative=5, sample=1e-4, iter=20, min_count=1, workers=coresと同様です。

私の勘では、最適値は多分sizeどこかに100と400の間に小さなwindowと高いmin_countを伴い、そしてかもしれないということですが、私はこれらの実験を実行したので、それがしばらくしています。

また、バルクトレーニングされたベクトルを再利用するのではなく、デフォルトより大きなデフォルトのpassesパラメータを使用して、最終モデルのベクトルを再推定することができます。それでも、これらはTfidfと同様のパフォーマンスに集中するかもしれません - それらはすべて同じ単語機能に依存しており、あまりデータには依存しません。

文書管理タグのいくつかは、知られている感情を表す場合があり、時には役立ちます。

出典

2016-07-29 02:33:21 gojomo

これは非常に役に立ちます - 私は試してみましょう！しかし、文脈を使って類似の単語を推論するという概念は、同義語と反意語を自然に混ぜると思いますか？たとえば、「これは映画です」、「この映画は悪い」 - >良いことと悪いことは高い余弦を持つことになります。これは、最終的なベクトル空間において、良い感情と悪い感情が非常に接近し、分離/分類することをより困難にすることを意味するか？ –

分布モデルは反意語がよく似ていると考えることはよくあります。そして、しばしば、そのような言葉は非常に似ています。これがセンチメント分類の問題を提示するのか、それとも十分なコントラストがあるのかは、実験的に解決する必要があります。トレーニングの行為は、近くの「良い」または「悪い」を予測する必要がある単語vecs/doc-vecsのさまざまなベクトルを引き続き誘導しています。 – gojomo

Doc2VecはSentiment Analysisに適していますか？

答えて

関連する問題