コーパス文書の単語サイズを制限することによる潜在的なディリクレ割り当て（LDA）のパフォーマンス

私は、yelp dataというトピックを生成しています。潜在的なディリクレ割り当て（LDA）をPython（gensimパッケージ）で使用しています。コーパス文書の単語サイズを制限することによる潜在的なディリクレ割り当て（LDA）のパフォーマンス

from nltk.tokenize import RegexpTokenizer 
tokenizer = RegexpTokenizer(r'\w{3,}') 
tokens = tokenizer.tokenize(review)

これは、作成している間、私たちは、3未満の長さの騒々しい言葉をフィルタリングすることができます：トークンを生成している間、私は（RegexpTokenizerを使用することにより）レビューから長さ> = 3を持つだけの単語を選択していますコーパス文書。

これらの単語を除外すると、LDAアルゴリズムのパフォーマンスにどのような影響がありますか？

一般的に言えば、英語の場合、1文字と2文字の単語はトピックに関する情報を追加しません。値を追加しない場合は、前処理ステップで削除する必要があります。ほとんどのアルゴリズムと同様に、データが少なくても実行時間が短縮されます。

2017-02-04 17:37:54

答えて