2013-07-02 21 views
7

私はLDAの新入生であり、私は自分の仕事でそれを使いたいと思っています。ただし、いくつかの問題が発生します。LDAのトピック数の決定方法は?

最高のパフォーマンスを得るために、最高のトピック番号を見積もりたいと思います。 「科学的トピックを見つける」を読んだ後、私はlogP(w | z)を最初に計算した後、一連のP(w | z)の高調波平均を使ってP(w | T)を推定できることを知っています。

私の質問は「一連の」とはどういう意味ですか?

ご迷惑をかけて申し訳ありません。

答えて

6

残念ながら、ハードサイエンスあなたの質問への正しい答えが得られません。私の知る限りでは、hierarchical dirichlet process (HDP)はおそらく最適なトピック数に達する最良の方法です。

詳細な解析をお探しの場合は、this paper on HDPはグループ数の決定にHDPの利点を報告します。

2

最初にいくつかの人々が最適なトピックを見つけるために調和平均を使用していますが、私も試しましたが結果は不満です。私の提案によれば、Rを使用している場合は "ldatuning"パッケージが便利です。最適なパラメータの数を計算するためのメトリック。また、複雑さと対数尤度ベースのV-foldクロスバリデーションは、最高のトピックモデリングのための非常に良いオプションです.V-Foldクロスバリデーションは、大規模なデータセットでは時間がかかります。「適切なトピック数を決定するヒューリスティックアプローチトピックモデリングで "。 重要なリンク: https://cran.r-project.org/web/packages/ldatuning/vignettes/topics.html https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4597325/

関連する問題