2012-04-18 16 views
1

私はSarah Palinの14,500通の電子メールで30件のトピックを識別するこのcode from github(1-2-3ステップに続いて)を実行しようとしました。著者が発見したトピックはhereです。しかし、Stanford Topic Modeling Toolboxは私のためにlda-outputディレクトリを作成していません。 lda-86a58136-30-2b1a90a6が作成されましたが、このフォルダ内のsummary.txtにはトピックの最初の割り当てのみが表示され、最後のものは表示されません。任意のアイデアはどのように発見されたトピックの最終的な要約とldaの出力ディレクトリを生成する?前もって感謝します!スタンフォードトピックモデリングツールボックスがlda出力ディレクトリを作成しないのはなぜですか?

答えて

0

posted hereの手順を試しましたか?

元の研究者がSarah Palinの電子メールでモデルを訓練した後、その訓練されたモデルを使用してSarah Palinの電子メールを分析したのがわかります。私はLDAの専門家ではありませんが、これは通常、あなたが持っているものを見つけることです。

ほとんどの分野では、専門家によって判別された既知の項目の集合に対して訓練が行われます。つまり、トレーニングは、他のソースから既知の可能性のあるトピックのデータセットを供給し、LDAライブラリを使用して「学習」データベースのトピックからの距離を判断することを意味します。

いずれにしても、幸いです。

特定の問題が発生した場合は、エラーを送信して、そのエラーに達するまでの手順を記入してください。方向性のない問題(問題を修正するための一般的な前提条件)を再現しようとする時間、または遭遇した問題があなたのものと類似しているかどうかを判断する能力さえも、ほとんどの人が投資します。

関連する問題