2016-11-16 2 views
1

トピックモデリングの初心者です。 私の目標は、文書から主要トピックを見つけることです。私は目的のためにldaを使用する予定です。しかし、ldaではトピックの数をあらかじめ定義しておく必要があります。トレーニングコーパスにない他のドメインのドキュメントが来たら、適切な結果は得られません。代替ソリューションはありますか?私の考えは正しいのですか?トピックモデルの動的なトピック数

+0

「ドキュメント」と言うとき、1つのドキュメントのみを意味しましたか? LDAを使用したトピックモデリングは、コーパスが多数のドキュメントで構成されている場合にのみ意味があります。また、トピックモデリングの「トピック」は、特定の意味を持ちますが、「ラベリングタスク」と同じではありません。 – jknappen

答えて

1

潜在的なディリクレ割り当て(LDA)と階層的ディリクレプロセス(HDP)のトピックモデルがあります。

LDAの場合、トピック数Kは固定されており、事前に既知であると仮定します。 scikitgensimで実装されているオンラインVariational Bayes(VB)アルゴリズムなどの高速推論アルゴリズムは、大規模なデータセット(ニューヨークタイムズやウィキペディアなど)でのトレーニングを可能にします。過度のフィッティングを行い、サンプル・ドキュメントがないと意味のあるトピックを学習します。 LDAの場合、クロスバリデーションは、トピックの数が異なる場合のパープレキシティを評価し、パープレキシティを最小化するKを選択することによってKを設定するために一般的に使用されます。

また、HDPトピックモデル(gensimで実装)は、データから自動的にトピック数を学習します。濃度パラメータおよび切り捨てレベルを設定することによって、トピックの数がモデルによって推測される。 HDPのオンライン変分推論のような効率的な推論アルゴリズムは、大量のデータセットの学習と意味のあるトピックの発見を可能にします。

関連する問題