私は、thisのような感情分類(分析)に関する最新の記事を読んでいます。私は特徴抽出のためのトライグラムを持つ単純なTFIDFのvectoriserを使用してDoc2Vec(88%)、を使用して、同様の精度の割合に(91%)がはるかに良い結果を得ることを見つけるの例として、IMDBのデータセットを取るとDoc2VecはSentiment Analysisに適していますか?
。私はこれが表2のMikolov's 2015 paperに似ていると思います。
これよりも大きなデータセットを使用すると、これが変わると思いました。だから私はhereから1millトレーニングと1 millテストの内訳を使って実験を再開しました。残念なことに、その場合、私のtfidfベクトル化機能の抽出方法は93%に増加しましたが、doc2vecは85%に減少しました。
私はこれが予想されるのか、他の人たちがtfidfが大きなコーパスであってもdoc2vecより優れていると思っているのだろうか?
def clean_review(review):
temp = BeautifulSoup(review, "lxml").get_text()
punctuation = """.,?!:;(){}[]"""
for char in punctuation
temp = temp.replace(char, ' ' + char + ' ')
words = " ".join(temp.lower().split()) + "\n"
return words
そして私はDoc2Vecモデルの400と1200の機能を使用して試してみました:
マイデータ・クリーニングが簡単です
model = Doc2Vec(min_count=2, window=10, size=model_feat_size, sample=1e-4, negative=5, workers=cores)
私のTFIDFのvectoriserが40,000最大の特徴を持っているのに対し:
vectorizer = TfidfVectorizer(max_features = 40000, ngram_range = (1, 3), sublinear_tf = True)
分類のために、私はいくつかの線形met hodsは、しかし
これは非常に役に立ちます - 私は試してみましょう!しかし、文脈を使って類似の単語を推論するという概念は、同義語と反意語を自然に混ぜると思いますか?たとえば、「これは映画です」、「この映画は悪い」 - >良いことと悪いことは高い余弦を持つことになります。これは、最終的なベクトル空間において、良い感情と悪い感情が非常に接近し、分離/分類することをより困難にすることを意味するか? –
分布モデルは反意語がよく似ていると考えることはよくあります。そして、しばしば、そのような言葉は非常に似ています。これがセンチメント分類の問題を提示するのか、それとも十分なコントラストがあるのかは、実験的に解決する必要があります。トレーニングの行為は、近くの「良い」または「悪い」を予測する必要がある単語vecs/doc-vecsのさまざまなベクトルを引き続き誘導しています。 – gojomo