公式の説明では、LDAのトピック間に自然順序はありません。Gensimを使用してトップ10のトピックを印刷するには?
show_topics()メソッドについては、num_topicsを返した場合< = self.num_topicsのすべてのトピックのサブセットは任意であり、2回のLDAトレーニングの実行の間に変更される可能性があります。
しかし、私はコーパスの上位10のトピックを頻繁に見つける傾向があります。これを達成する他の方法はありますか?
多くのありがとうございます。
公式の説明では、LDAのトピック間に自然順序はありません。Gensimを使用してトップ10のトピックを印刷するには?
show_topics()メソッドについては、num_topicsを返した場合< = self.num_topicsのすべてのトピックのサブセットは任意であり、2回のLDAトレーニングの実行の間に変更される可能性があります。
しかし、私はコーパスの上位10のトピックを頻繁に見つける傾向があります。これを達成する他の方法はありますか?
多くのありがとうございます。
ドキュメントの説明と同様に、LDAのトピック間に自然な順序はありません。出現頻度などのトピックを注文するための独自の基準がある場合は、モデルからトピックのリスト全体を検索し、自分で並べ替えることができます。
しかし、「トップ10の最も頻繁なトピック」という概念もあいまいであり、周波数のいくつかの異なる定義を合理的に考え出すことができます。最大の数の単語トークンに割り当てられたトピックを意味しますか?すべての文書の中で平均の割合が最も高いトピックを意味しますか?このあいまいさは、gensim
にトピックをソートする組み込みの方法がない理由です。