トピックモデリングの初心者です。 私の目標は、文書から主要トピックを見つけることです。私は目的のためにldaを使用する予定です。しかし、ldaではトピックの数をあらかじめ定義しておく必要があります。トレーニングコーパスにない他のドメインのドキュメントが来たら、適切な結果は得られません。代替ソリューションはありますか?私の考えは正しいのですか?トピックモデルの動的なトピック数
1
A
答えて
1
潜在的なディリクレ割り当て(LDA)と階層的ディリクレプロセス(HDP)のトピックモデルがあります。
LDAの場合、トピック数Kは固定されており、事前に既知であると仮定します。 scikitとgensimで実装されているオンラインVariational Bayes(VB)アルゴリズムなどの高速推論アルゴリズムは、大規模なデータセット(ニューヨークタイムズやウィキペディアなど)でのトレーニングを可能にします。過度のフィッティングを行い、サンプル・ドキュメントがないと意味のあるトピックを学習します。 LDAの場合、クロスバリデーションは、トピックの数が異なる場合のパープレキシティを評価し、パープレキシティを最小化するKを選択することによってKを設定するために一般的に使用されます。
また、HDPトピックモデル(gensimで実装)は、データから自動的にトピック数を学習します。濃度パラメータおよび切り捨てレベルを設定することによって、トピックの数がモデルによって推測される。 HDPのオンライン変分推論のような効率的な推論アルゴリズムは、大量のデータセットの学習と意味のあるトピックの発見を可能にします。
関連する問題
- 1. JMS/ActiveMQトピックの動的作成/削除
- 2. Apache ActiveMQトピックに動的に接続しない
- 3. LDAのトピックをJavaでsparkを使用して単語形式でトピックモデルを表示するには
- 4. JS、動的なコールバック関数(すなわち、動的定数)は、
- 5. テーブルの動的なフィールド数
- 6. リストビューの動的な列数
- 7. 複数のトピックへのストリーミングメッセージ
- 8. Apache Camel - Kafkaプロデューサー:トピック名を動的に設定する
- 9. RabbitMQ - トピック交換 - 複数の同じトピック同じサブ科目
- 10. AWS IoT MQTTトピックに接続されたクライアントの数トピック
- 11. は、実行時にカフカの消費者のトピックに動的な値を渡すメッセージ駆動チャネルアダプタ用
- 12. 動的な列数Ionic 2
- 13. 動的な関数マッピング
- 14. JMSとの同期動作トピック
- 15. どのカテゴリにないトピック
- 16. SQLのPIVOT - 複数の動的な列
- 17. 動的なJavaのパーティ数の障壁
- 18. Kafka ConnectでSinkConnectorのトピックを動的に更新する方法は?
- 19. LDAのトピック数の決定方法は?
- 20. Mosquittoのトピックのサブスクライバ数を取得
- 21. カテゴリを選択し、サブカテゴリのトピックの数
- 22. 動的なC++関数のパラメータ
- 23. 動的なjQueryセレクタ、変数の問題
- 24. Androidの動的な複数列リストビュー
- 25. UITableViewの水平スクロール(動的な列数)
- 26. 動的な複数のグリッドasp.net mvc
- 27. Rubyのメタプログラミング:動的なインスタンス変数名
- 28. AWS SNSトピックを持たない複数のユーザーへの通知
- 29. 乱数の動的数
- 30. ハイハットプロットの動的数
「ドキュメント」と言うとき、1つのドキュメントのみを意味しましたか? LDAを使用したトピックモデリングは、コーパスが多数のドキュメントで構成されている場合にのみ意味があります。また、トピックモデリングの「トピック」は、特定の意味を持ちますが、「ラベリングタスク」と同じではありません。 – jknappen