1

私は、thisのような感情分類(分析)に関する最新の記事を読んでいます。私は特徴抽出のためのトライグラムを持つ単純なTFIDFのvectoriserを使用してDoc2Vec(88%)、を使用して、同様の精度の割合に(91%)がはるかに良い結果を得ることを見つけるの例として、IMDBのデータセットを取るとDoc2VecはSentiment Analysisに適していますか?

。私はこれが表2のMikolov's 2015 paperに似ていると思います。

これよりも大きなデータセットを使用すると、これが変わると思いました。だから私はhereから1millトレーニングと1 millテストの内訳を使って実験を再開しました。残念なことに、その場合、私のtfidfベクトル化機能の抽出方法は93%に増加しましたが、doc2vecは85%に減少しました。

私はこれが予想されるのか、他の人たちがtfidfが大きなコーパスであってもdoc2vecより優れていると思っているのだろうか?

def clean_review(review): 
    temp = BeautifulSoup(review, "lxml").get_text() 
    punctuation = """.,?!:;(){}[]""" 
    for char in punctuation 
     temp = temp.replace(char, ' ' + char + ' ') 
    words = " ".join(temp.lower().split()) + "\n" 
    return words 

そして私はDoc2Vecモデルの400と1200の機能を使用して試してみました:

マイデータ・クリーニングが簡単です

model = Doc2Vec(min_count=2, window=10, size=model_feat_size, sample=1e-4, negative=5, workers=cores) 

私のTFIDFのvectoriserが40,000最大の特徴を持っているのに対し:

vectorizer = TfidfVectorizer(max_features = 40000, ngram_range = (1, 3), sublinear_tf = True) 

分類のために、私はいくつかの線形met hodsは、しかし

答えて

2

... OK Mikolovは一度掲示サンプルコード(https://groups.google.com/d/msg/word2vec-toolkit/Q49FIrNOQRo/J6KG8mUj45sJ)を行うには、単純なロジスティック回帰を見つけオプション-cbow 0 -size 100 -window 10 -negative 5 -hs 0 -sample 1e-4 -threads 40 -binary 0 -iter 20 -min-count 1 -sentence-vectors 1使用 - gensimにdm=0, dbow_words=1, size=100, window=10, hs=0, negative=5, sample=1e-4, iter=20, min_count=1, workers=coresと同様です。

私の勘では、最適値は多分sizeどこかに100と400の間に小さなwindowと高いmin_countを伴い、そしてかもしれないということですが、私はこれらの実験を実行したので、それがしばらくしています。

また、バルクトレーニングされたベクトルを再利用するのではなく、デフォルトより大きなデフォルトのpassesパラメータを使用して、最終モデルのベクトルを再推定することができます。それでも、これらはTfidfと同様のパフォーマンスに集中するかもしれません - それらはすべて同じ単語機能に依存しており、あまりデータには依存しません。

文書管理タグのいくつかは、知られている感情を表す場合があり、時には役立ちます。

+0

これは非常に役に立ちます - 私は試してみましょう!しかし、文脈を使って類似の単語を推論するという概念は、同義語と反意語を自然に混ぜると思いますか?たとえば、「これは映画です」、「この映画は悪い」 - >良いことと悪いことは高い余弦を持つことになります。これは、最終的なベクトル空間において、良い感情と悪い感情が非常に接近し、分離/分類することをより困難にすることを意味するか? –

+0

分布モデルは反意語がよく似ていると考えることはよくあります。そして、しばしば、そのような言葉は非常に似ています。これがセンチメント分類の問題を提示するのか、それとも十分なコントラストがあるのか​​は、実験的に解決する必要があります。トレーニングの行為は、近くの「良い」または「悪い」を予測する必要がある単語vecs/doc-vecsのさまざまなベクトルを引き続き誘導しています。 – gojomo

関連する問題