2016-10-12 8 views
-1

私は約1,400のドキュメントのコーパスを持っています。私はすべてのテキストをtmパッケージを使ってクレンジングしました。私の最後のステップは、DTMマトリックスの作成でした。 私は、人間が検査した200の文書と割り当てられたトピック(カテゴリ)に基づいてLDAモデルを訓練しようとしています。 残念ながら、再現可能な例を共有することはできません。LDAトピックの割り当て

自由に利用できるデータセットの1つを例として、これはどのように実行されますか?

+0

私が知る限り、LDAは教師なしマシン学習アルゴリズムです。したがって、出力を生成するためにモデルを訓練する必要はありません。アルゴリズムは、コーパスに潜在する構造を検索してトピック語の割り当てを生成します。 LDAの監督されたバージョンはhttps://www.cs.princeton.edu/~blei/papers/BleiMcAuliffe2007.pdfのようにありますが、トピックモデリングパッケージ – DotPi

+0

に実装されているとは思いませんそうです。 LDAアプローチを取ったとき、最適なトピック数は2〜3です。これは、kのクラスタリングを意味するエルボー曲線によっても示される。それは私が人間の検査をしたときよりもはるかに少ない。私の選択肢は何ですか? –

答えて

0

トレーニングデータに注釈が付いている場合は、SVMやロジスティック回帰などの教師付き分類手法を使用して、テキスト分類タスクには適しています。 PythonのScikit-learnには、これらの分類子の実装がすべて含まれており、それらを分類目的に直接使用することができます。