2016-04-28 6 views
2

私は文書検索のためにGalagoを使い始めました。 LDAを使用していくつかのドキュメント(最初に検索されたドキュメント)をクラスタ化したい私はGalagoを使用して自分のコードに統合できるJavaベースの実装を使用することを好みます。 LDAのオープンソース実装が自分の目的に適しているかどうかを教えていただければ幸いです。ガラゴの検索エンジンでLDAを使用

ありがとうございました!

答えて

0

この論文からLDAのための高速なアルゴリズムがあります:

S.アローラ、R.のGe、Y.ハルパーン、D. Mimno、A. Moitra、D.ソンタグ、Y.呉、M. Zhu。提供可能な保証を用いたトピックモデリングのための実用的アルゴリズム。 30日機械学習(ICML)、2013年ここにgithubの上の著者の一人(D. Mimno)によってJava実装を持っている

に関する国際会議:私はこの実装の周りつついてきたhttps://github.com/mimno/anchor

簡潔に、そして良好で速い結果を見出した。すべてのLDA /トピックモデリングと同様に、トピックの数を正しく取得することは難しいことがあります。

+0

こんにちはJohnさん、ありがとうございます。私はちょうど1つの質問があります:--topics-fileで指定されたtrain-anchorの出力ファイルには、確率p(topic | word)* p(word)ですか?マニュアルにp(topic | word)と書かれているので、この質問がありますが、コードではwordProb * weights [topic]が見つかりました。再度、感謝します! – Magen

関連する問題