2016-05-31 9 views
0

は私がコーパス作成時にgensimで辞書サイズを大きくするには?

background_corpus = TextCorpus('wiki.en.text') 

それが故に、この

adding document #820000 to Dictionary(2000000 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk', u'billycorgan', u'olmsville']...) 

discarding 31072 tokens: [(u'vnsas', 1), (u'ezequeel', 1), (u'trapeztafel', 1), (u'pubsub', 1), (u'gyvenimas', 1), (u'gilibrand', 1), (u'catfaced', 1), (u'beuningan', 1), (u'moodadi', 1), (u'nocaster', 1)]... 

keeping 2000000 tokens which were in no less than 0 and no more than 830000 (=100.0%) documents 

を与え、このコーパスを作り、それを辞書に追加しているときので、これは10 GB以上のファイルで、新しいの廃棄コマンドを使用してコーパスを作っていましたトークンの最大サイズは2000000です。とにかく私は辞書のサイズを制限できませんか?

答えて

0

説明はhttps://radimrehurek.com/gensim/corpora/dictionary.htmlです。引数prune_at2000000に設定されています。使用する機能に応じて、廃棄の問題を避けるためにNoneに変更することができます。

EDIT:gensim/corpora/dictionary.py(現在のリリースのinit関数の行45)でprune_at = Noneを設定するか、独自の制限を設定することができます(例:prune_at = 5000000で5000000)。

関連する問題