lda

2熱

1答えて

brew install vowpal-wabbitを使って私のMacにvowpal-wabbitをインストールしました。 vwコマンドが正常に動作します。 reading dataset... ERROR: vw-doc2lda not found in the path ：私は、しかし、私は私のマシンにこのスクリプトをコピーし、それを実行してみましたが、私は次のエラーを取得する具体的に、私はv

6熱

1答えて

Gensim LDAトピックの割り当て

LDAを使用して各ドキュメントを1つのトピックに割り当てたいと考えています。今私は、あなたが得るものはLDAからの話題の分布であることを理解しています。しかし、下の最後の行から分かるように、私はそれを最も可能性の高いトピックに割り当てます。私の質問はこれです。私はlda[corpus]をやや2回実行して、これらのトピックを得る必要があります。私にこのトピック割り当てベクトルを直接与える他の組み込

2熱

1答えて

LDA解釈

私は信用リスクに関する分析でLDeを使用するためにHMeasureパッケージを使用します。私は11000のobsを持っており、分析を発展させるために年齢と収入を選択しました。 LDAのR結果をどのように解釈するのか正確には分かりません。だから、私は信用リスクに応じて最良の変数を選択したかどうかはわかりません。私はコードの下にあなたを示します。 ETA = AGEとSTIPENDIO =所得どう

1熱

1答えて

LDAのトピックをJavaでsparkを使用して単語形式でトピックモデルを表示するには

JavaでApache Spark MLを使用してLDAモデルを作成しようとしています。入力ドキュメントはString形式です。私は数字形式のトピックを取得しますが、単語フォーマットは取得しません。悲しいことに、解決策はR- LDA with topicmodels, how can I see which topics different documents belong to?ですが、私はJ

3熱

1答えて

テキストファイルのトピックモデリングを実装した後、私はすべてのトピックを説明するために類似の言葉を得ており、結果は不正確です。

from nltk.tokenize import RegexpTokenizer from stop_words import get_stop_words from gensim import corpora, models import gensim import os from os import path from time import sleep tokenizer

0熱

1答えて

トピック索引をLDAのトピック単語に変換する方法

LDAモデル（org.apache.spark.ml.clustering.LDA）からvocabArrayを取得する方法。私はちょうどスキャンされた単語の数を返すvocabSizeを取得しています。理想的には、モデルからの実際の単語の配列を必要とし、termindicesに基づいて、バケット内の単語を見たいと思います。私はスカラーでこれを行う必要があります。どんな提案も役に立ちます。私が今ま

1熱

1答えて

次元削減のためにデータセット全体で線形判別分析を実行する必要がありますか？

次元削減のためだけにLDAを使用する方法がわかりません。私は、クラスインデックスのために64のフィーチャーと1つの列を持つ75x65のマトリックスを持っています。この行列はhereです。私は、sklearnのthis functionを使用して、次元削減にLDAを使用しようとしています。 def classify(featureMatrix): X, y = featureMatri

0熱

1答えて

生成モデルと推論

： https://papers.nips.cc/paper/2466-hierarchical-topic-models-and-the-nested-chinese-restaurant-process.pdf 私は生成モデルがどのように機能するかについて質問があります。生成モデルの出力はどのようになり、推論（Gibbsサンプリング）段階でどのように使用されますか。私は、生成モデルと推論部分と

1熱

1答えて

正しい入力データを使ってPythonでTwitterの良いLDAモデルを生成

私は無関係のTwitterユーザーのプロファイルを定義するためにTwitterのトピックモデリングを扱っています。私はGensimモジュールを使ってLDAモデルを生成しています。私の質問は、良い入力データを選ぶことです。私は特定のユーザーに割り当てるトピックを生成したいと思います。質問は入力データに関するものです。今では、私自身（スポーツ、IT、政治など）別のカテゴリのユーザーを選んで、そのツイー

0熱

1答えて

LDAの文書トピックの確率を改善する

私はLDAをRで使用して、ITサポートチケットを関連するトピックに分類しようとしています。私のコーパスの内容は、5,550の文書と1882語です。私はで始まり、12,000語で開始します。しかし、共通のストップワードやその他のノイズワードを削除した後、私は1800個の奇妙な単語で上陸しました。 LDAvisの出力を調べると、アルゴリズムによって返された結果/トピックは、コーパスのサンプルをチェッ