私は私が私が希望トークン化と正規表現トークナイザ
['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']
として出力を得る
tokenizer = RegexpTokenizer(r'\w+')
としての私のトークナイザを定義するとき
MOST INTERESTED IN NUT BUTTERS
トークナイザ正規表現で次の文をトークン化したいです出力は
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']
私はナッツバターは私が定期的にどのような表現の代わりに使用したり、\ wの+
'STR = 'NUT BUTTERS''に最も興味' str.split('」、3) ' –
これは単なる例はstament.Thereがあるより多くのそのようたstatmentsを持つ文書私はすべての中で欲しいナットバターが同じであるべき味わい –
「ナットバター」の仕組みはどういうふうに扱われていますか? –