-1
私は約1,400のドキュメントのコーパスを持っています。私はすべてのテキストをtmパッケージを使ってクレンジングしました。私の最後のステップは、DTMマトリックスの作成でした。 私は、人間が検査した200の文書と割り当てられたトピック(カテゴリ)に基づいてLDAモデルを訓練しようとしています。 残念ながら、再現可能な例を共有することはできません。LDAトピックの割り当て
自由に利用できるデータセットの1つを例として、これはどのように実行されますか?
私が知る限り、LDAは教師なしマシン学習アルゴリズムです。したがって、出力を生成するためにモデルを訓練する必要はありません。アルゴリズムは、コーパスに潜在する構造を検索してトピック語の割り当てを生成します。 LDAの監督されたバージョンはhttps://www.cs.princeton.edu/~blei/papers/BleiMcAuliffe2007.pdfのようにありますが、トピックモデリングパッケージ – DotPi
に実装されているとは思いませんそうです。 LDAアプローチを取ったとき、最適なトピック数は2〜3です。これは、kのクラスタリングを意味するエルボー曲線によっても示される。それは私が人間の検査をしたときよりもはるかに少ない。私の選択肢は何ですか? –