lda

1熱

1答えて

gensim LDAを使用してドキュメントの完全なトピック配布を取得するにはどうすればよいですか？

私は、このような dictionary = corpora.Dictionary(data) corpus = [dictionary.doc2bow(doc) for doc in data] num_cores = multiprocessing.cpu_count() num_topics = 50 lda = LdaMulticore(corpus, num_topics=num_

0熱

2答えて

ギブスサンプリングのパラメータを設定する方法

私は、前処理後に9582の文書と4144の用語で構成されたいくつかのツイッターアカウントから収集したツイートのデータセットでLDAトピックモデリングを実行しています。 LDA関数を実行するには、モデルを実行するときにGibbsサンプリングドローの数を制御するパラメータ値を定義する必要があります。 fitted_many <- lapply(sequ, function(k) LDA(dtmTopi

0熱

1答えて

スパークを伴うLDAモデル

新しい文書のトピックの分布を推測する際に問題があります。実際にSpark 2.2.0を使用していますが、既にLDAモデルを訓練しています val lda = new LDA().setK(5).setMaxIterations(24) 新しい文書のトピックを推論するにはどうすればよいですか？

1熱

1答えて

マレットを使用してLDAモデルを拡張する

別のレイヤーを追加してLDAモデルを拡張しようとしています。 Malletに別のレイヤーを追加することはできますか？もしそうなら、私はどのクラスを拡張すべきですか？プロセス私がモデルにしようとしている： 1. cc.mallet.topics.SimpleLDAクラスは新モデルの開発のためのベースとして使用することを意図された単語

0熱

1答えて

LDAでのみ話題を取得

gensimパッケージのLDAをコーパスに適用したので、各用語ごとに確率が得られます。私の問題は、どのようにしてその確率のない用語だけを得るかということです。ここは私のコードです： K = ldamodel.num_topics t = 0 topicWordProbMat = ldamodel.print_topics(K) for topic_dist in topicWordProb

1熱

1答えて

scikitを使って特定の文書のトピック確率を得る方法は？

私は、一連の文書にLDAを適用したいと考えています。ドキュメントが特定のトピックに属する確率を計算すると仮定します。私は次のようでした。今、私は私が5つの話題に使用するので、例えば、特定のトピックに属していると私のdata_sampleのドキュメントの確率を取得したいと思い tfidf_vectorizer = TfidfVectorizer(min_df=12, analyzer="word")

1熱

1答えて

gensim.interfaces.TransformedCorpus - どのように使いますか？

私はLatent Dirichlet Allocationの世界では比較的新しいです。私はWikipediaのチュートリアルの後でLDAモデルを生成することができます。私は独自のドキュメントを使ってLDAモデルを生成することができます。今、私のステップは、未知のドキュメントを分類するためにprevius生成モデルを使用する方法を理解しようとしています。私は id2word =gensim.c

0熱

1答えて

トピックを選んでくださいモデル

トピックモデリングを初めて知り、混乱しています。私はトピックの数に応じてさまざまな値でさまざまな時間にMALLETを実行しました。それでは、どの分析項目をさらに分析するかをどのように知っていますか？トピックモデルの評価を扱う論文があることは知っていますが、このようなコードは作成できません。

0熱

2答えて

Pandasで一定量以下のアイテムやスティングで行を削除するには？

私は多くを検索しましたが、この特定のケースに対する解決策を見つけることができませんでした。私は3つ未満の文字列またはリスト内の項目を含む行を削除したいと思います。私の問題は、より明確に説明されます。パンダで大きなスウェーデン語データベースを使用してLDAトピックモデリングを準備しており、テストケースを1000行に制限しています。次のように私は特定の列と私のアプローチとの関係はこれまでされていてい

0熱

1答えて

見つかったアレイが暗い3.見積もりが期待値= 2

私はLDAを単純なドキュメントの集合に使用しています。トピックを抽出し、抽出したトピックをフィーチャーとして使用して自分のモデルを評価することが私の目標です。私は、評価者として多項式SVMを使用することに決めました。その良いかどうかわからない？ import itertools from gensim.models import ldamodel from nltk.tokenize imp