Spark MLlibを使ってLDAトピックモデリングを適用することに興味があります。私はhereのコードと説明をチェックしましたが、モデルを使って新しい目に見えない文書のトピックの分布を見つける方法を見つけることができませんでした。Spark MLlib LDA、新しい目に見えない文書のトピック配布を推測する方法は?
13
A
答えて
13
Spark 1.5では、DistributedLDAModel
ではこの機能が実装されていませんでした。
newDocuments: RDD[(Long, Vector)] = ...
val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments)
:何をする必要があるとしていること
toLocal
方法を使用して
LocalLDAModel
にモデルを変換し
documents
は、新しい(すなわち、アウト訓練)文書である
topicDistributions(documents: RDD[(Long, Vector])
メソッドを呼び出して、このようなものです
これは、this paperが示唆しているEMアルゴリズムよりも精度は低くなりますが、動作します。あるいは、新しいオンライン変分EMトレーニングアルゴリズムを使用して、すでにLocalLDAModel
という結果を得ることもできます。より速くなることに加えて、この新しいアルゴリズムは、フィッティングDistributedLDAModels
の古いEMアルゴリズムとは異なり、ドキュメントのトピック混合重みよりも前にディリクレのパラメータ(アルファ)を最適化しているために好ましい。 Wallach, et. al.によれば、アルファの最適化は、良いトピックを得るためには非常に重要です。
関連する問題
- 1. gensimのLDAトピックの単語の完全な配布方法は?
- 2. 新しいデータのLDAトピックを予測する
- 3. LDAのトピック数の決定方法は?
- 4. Spark MLlibでユーザベースの推奨を行うには?
- 5. クリックすると目に見えない目に見えるアンドロイドクロノメーターの作り方
- 6. Spark MLlibに必要なorg.apache.spark.rdd.RDD [Array [Double]]をArray [Double]に変換する方法
- 7. コンピュータが数字を推測して推測数(Javascript)を返す方法を教えてください。
- 8. appstoreで配布しないでAndroidアプリケーションを自動更新する方法は?
- 9. アンドロイドのボタンに目に見えるものと目に見えないものを使う方法
- 10. Spark Mllib KMeansのアルゴリズムが極端に遅いのはなぜですか?
- 11. 簡単な推測ゲーム(Haskell)の推測数を追跡する方法
- 12. バーチャルマシンを使用した新しいソフトウェア配布方法
- 13. 目に見えないJFrameを他の場所にペイントする方法は?
- 14. MLLib spark -ALStrainImplicitの値が1より大きい
- 15. 目に見えないTImage32を扱う方法
- 16. 各サブ文書の配列に特定のキーワードが含まれている配列内のサブ文書を見つける方法を見つける方法?
- 17. herokuは目に見えない
- 18. スパークスタンドアロンモードで他のワーカーノードにジョブを配布しない
- 19. ユニークな目に見えない文字? Objective C
- 20. 目に見えないマウスのonmouseover?
- 21. スクロールの目に見えないdiv
- 22. スピナーの目に見えない背景?
- 23. チームビルド中に "目に見えない"チェックイン
- 24. CSSのオーバーレイ要素ではない目に見えない
- 25. 目に見えないmod_rewriteは常に見えないわけではありません! (「WWW」と「サブドメインなし」)
- 26. IE8で目に見えないDivs
- 27. 目に見えないgitメタコミット
- 28. 配列フィールドでサブ文書を並べ替える方法は?
- 29. jQuery IE8ラジオボタンの目に見えない箇条書きを引き起こす
- 30. ビットマップサイズを測定または推定する方法bitmap.getByteCount()をサポートしていないバージョン
ありがとうございました。答えは非常に便利です!可能であれば、topicDistributionsの出力をどのようにしてより表現可能な結果に抽出するかについてもっと詳しく説明できますか? – HappyCoding
私はこれを実装し、topicDistributions [ここ](https://gist.github.com/alex9311/774089d936eee505d7832c6df2eb597d)を印刷する方法を示しました – alex9311
1.6のために何か変更されましたか? –