カスタマイズされたトークナイザを使用できます。簡単な例は
vec = CountVectorizer(tokenizer=lambda s: s.split())
によって
vec = CountVectorizer()
を交換するために行うだろう。この変更では、あなたのコードを返します:
[u'#', u'1:1', u'first', u'help', u'on', u'please', u'ques', u'stackoverflow']
がうまくいけば、この提案は正しい軌道に乗ってあなたを置くが、(あなたのテキストが句読点を持っている場合など)、そのような問題を回避するには、より複雑な場合には適切に動作しないことがわかります。句読点マークに対処するために
、あなたはCountVectorizer
は、このようなトークンパターン渡すことができます。
text = [u"first ques... # 1:1, on stackoverflow", u"please, help!"]
vec = CountVectorizer(token_pattern=u'\w:?\w+')
出力:私のテキストが句読点を持っている場合は、yオプションをAREM何
[u'1:1', u'first', u'help', u'on', u'please', u'ques', u'stackoverflow']
うん、? – Huey