2017-07-17 5 views
1

私は、一連の文書にLDAを適用したいと考えています。ドキュメントが特定のトピックに属する確率を計算すると仮定します。私は次のようでした。今、私は私が5つの話題に使用するので、例えば、特定のトピックに属していると私のdata_sampleのドキュメントの確率を取得したいと思いscikitを使って特定の文書のトピック確率を得る方法は?

tfidf_vectorizer = TfidfVectorizer(min_df=12, analyzer="word") 
tfidf = tfidf_vectorizer.fit_transform(data_samples) 
lda = LatentDirichletAllocation(n_topics=5, max_iter=5, 
           learning_method='online', 
           learning_offset=50., 
           random_state=0) 
lda.fit(tfidf) 

[0.2, 0.1 ,0.1, 0.1, 0.5]を、LDAに関するドキュメントはprety弱いですこの情報が簡単に入手できるかどうか知っていますか?

答えて

2

私は最近同じ問題を抱えていました。 lda.transform(tfidf)

これを行うには、ベクトルtfidfを使用する必要があることに注意してください。

「トランスフォーム」という名前は、統計的な概念であると思うdata transformation

関連する問題