lda

    1

    1答えて

    私は、このような dictionary = corpora.Dictionary(data) corpus = [dictionary.doc2bow(doc) for doc in data] num_cores = multiprocessing.cpu_count() num_topics = 50 lda = LdaMulticore(corpus, num_topics=num_

    0

    2答えて

    私は、前処理後に9582の文書と4144の用語で構成されたいくつかのツイッターアカウントから収集したツイートのデータセットでLDAトピックモデリングを実行しています。 LDA関数を実行するには、モデルを実行するときにGibbsサンプリングドローの数を制御するパラメータ値を定義する必要があります。 fitted_many <- lapply(sequ, function(k) LDA(dtmTopi

    0

    1答えて

    新しい文書のトピックの分布を推測する際に問題があります。 実際にSpark 2.2.0を使用していますが、既にLDAモデルを訓練しています val lda = new LDA().setK(5).setMaxIterations(24) 新しい文書のトピックを推論するにはどうすればよいですか?

    1

    1答えて

    別のレイヤーを追加してLDAモデルを拡張しようとしています。 Malletに別のレイヤーを追加することはできますか?もしそうなら、私はどのクラスを拡張すべきですか? プロセス私がモデルにしようとしている: 1. cc.mallet.topics.SimpleLDAクラスは新モデルの開発のためのベースとして使用することを意図された単語

    0

    1答えて

    gensimパッケージのLDAをコーパスに適用したので、各用語ごとに確率が得られます。私の問題は、どのようにしてその確率のない用語だけを得るかということです。ここ は私のコードです: K = ldamodel.num_topics t = 0 topicWordProbMat = ldamodel.print_topics(K) for topic_dist in topicWordProb

    1

    1答えて

    私は、一連の文書にLDAを適用したいと考えています。ドキュメントが特定のトピックに属する確率を計算すると仮定します。私は次のようでした。今、私は私が5つの話題に使用するので、例えば、特定のトピックに属していると私のdata_sampleのドキュメントの確率を取得したいと思い tfidf_vectorizer = TfidfVectorizer(min_df=12, analyzer="word")

    1

    1答えて

    私はLatent Dirichlet Allocationの世界では比較的新しいです。 私はWikipediaのチュートリアルの後でLDAモデルを生成することができます。私は独自のドキュメントを使ってLDAモデルを生成することができます。 今、私のステップは、未知のドキュメントを分類するためにprevius生成モデルを使用する方法を理解しようとしています。 私は id2word =gensim.c

    0

    1答えて

    トピックモデリングを初めて知り、混乱しています。私はトピックの数に応じてさまざまな値でさまざまな時間にMALLETを実行しました。それでは、どの分析項目をさらに分析するかをどのように知っていますか?トピックモデルの評価を扱う論文があることは知っていますが、このようなコードは作成できません。

    0

    2答えて

    私は多くを検索しましたが、この特定のケースに対する解決策を見つけることができませんでした。私は3つ未満の文字列またはリスト内の項目を含む行を削除したいと思います。私の問題は、より明確に説明されます。 パンダで大きなスウェーデン語データベースを使用してLDAトピックモデリングを準備しており、テストケースを1000行に制限しています。次のように私は特定の列と私のアプローチとの関係はこれまでされていてい

    0

    1答えて

    私はLDAを単純なドキュメントの集合に使用しています。トピックを抽出し、抽出したトピックをフィーチャーとして使用して自分のモデルを評価することが私の目標です。 私は、評価者として多項式SVMを使用することに決めました。その良いかどうかわからない? import itertools from gensim.models import ldamodel from nltk.tokenize imp