2017-01-18 11 views
0

トピックモデリングにgensimを使用しています。gensimで制約付きの語彙からコーパス内の単語をフィルタリングする方法は?

wordDict = corpora.Dictionary(trimmedTextTokens) 

gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens] 

ここで、trimmedTextTokensはストップワードを削除した結果です。今では、限定されたまたは構成された語彙のリストにない用語を、コーパスから除外したいと考えています。何か案は?ありがとうございました!!あなたの制限された語彙リストを想定し

答えて

0

restrictedVocabularyListあなたができるという名前の変数である:

wordDict = corpora.Dictionary(trimmedTextTokens) 

gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens if text in restrictedVocabularyList] 
+0

ありがとうございました!!よろしくお願いいたします。 – tom

+0

回答が役に立ったら、それを受け入れていただければ幸いです。 – ginge

関連する問題