2017-07-18 5 views
2

MALLETトピックモデリングでは、--output-topic-keys [FILENAME]オプションは、各トピックの横に、トピックの「Dirichletパラメータ」と呼ばれるMALLETサイトのチュートリアルのパラメータを出力します。マレットトピックモデリング - トピックキー出力パラメータ

このパラメータは何を表していますか?それはLDAモデルのβですか?そうでない場合、それは何であり、それは何の意味と用途であるのでしょうか。

トピックモデルを生成するときにパラメータ最適化オプションを使用しないと、このパラメータはバージョン2.0.7ではバージョン2.0.8と異なります。なぜこの違いが起こるのか知りたい。

ここバージョン2.0.7出力

Version 2.0.7

および2.0.8

enter image description here

私は出力が各実行によって異なっていることを知っているが、私は、このパラメータを持つ唯一の心配です。

答えて

2

Malletで使用されるトピックモデル推論アルゴリズムは、固定された他のすべての単語の割り当てを保持する各単語の新しいトピック割り当てを繰り返しサンプリングします。このプロセスを制御する要因は、(1)現在の単語タイプが各トピックにどのくらいの頻度で現れるか、(2)各トピックが現在の文書に何回出現するかである。スムージングパラメータは、どのトピックでもこれらの値がゼロにならないようにします。最初の要素の場合はbeta、2番目の要素の場合はalphaです。

ここに表示されているalphaのパラメータは、追加される各トピックの「架空の」単語の数と考えることができます。最初のケースでは、トピック0には、すべての文書で重みの2.5の虚数語があります。このパラメータのデフォルト値は、最初は50/numTopicsでした。値が大きくなるほど、モデルでドキュメント内のトピックの分布がより均一になり、値が小さいほどまばらなものになります。一般的な経験では、50が大きすぎ、5がより良いデフォルトであるということでした。これは2.0.8で変更されました。

デフォルトでは、alphaの重みがすべてのトピックに対して等しくなります。ハイパーパラメータの最適化をオンにすると、これらの値が異なることがあります。通常、大きな価値を持つトピックには、ほとんどのドキュメントで頻繁に使用されるコンテンツの多い「ストップウォール近辺」が含まれています。非常に小さな値を持つトピックは、しばしば珍しい、特有のドキュメントです。真ん中にあるトピックは、しばしば最も興味深いものです。

+0

MALLETが選択したトピックを削除したい場合はどうすればよいですか?状態モデルでαを設定すると保証されますか?そうでない場合、私はそれをどのように達成できますか? –

1

正しく理解すると、パラメータはベータではなくアルファです。

あなたはハイパーごとINTEGER反復を再推定するためのフラグ

--optimize-interval INTEGER 

を用いる不斉アルファを使用することができます。

関連する問題