トークン化と正規表現トークナイザ

私は私が私が希望トークン化と正規表現トークナイザ

['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']

として出力を得る

tokenizer = RegexpTokenizer(r'\w+')

としての私のトークナイザを定義するとき

MOST INTERESTED IN NUT BUTTERS

トークナイザ正規表現で次の文をトークン化したいです出力は

['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']

私はナッツバターは私が定期的にどのような表現の代わりに使用したり、\ wの+

出典

2017-12-19 Rookie_123

'STR = 'NUT BUTTERS''に最も興味' str.split（'」、3） ' –

これは単なる例はstament.Thereがあるより多くのそのようたstatmentsを持つ文書私はすべての中で欲しいナットバターが同じであるべき味わい –

「ナットバター」の仕組みはどういうふうに扱われていますか？ –

あなたが正規表現溶液で行きたい場合は、1として抽出し、このようなあなたの正規表現を構築する必要がスペースを含む単語のリストを作成する必要がありますため

word space1|word space2|word space3|...|word spaceN|\w+

あなたの例では、それは次のようになります。

NUT BUTTERS|\w+

出典

2017-12-19 06:56:08 Allan

ありがとうございます –

私はちょうど例としてナッツバターを使用しました。テキストファイルから別の言葉をここに入れることができます。例えば、私のテキストファイルがNUT BUTTERS MANGO APPLEを持っているなら、私は正規表現のそれらのすべてにしたいと思います –

ではなくsplit()を試してみて理解していないのです一つの要素になりたいです。

>>> str = 'MOST INTERESTED IN NUT BUTTERS' 
>>> str.split(' ', 3) # 3 tells the number of splits it should do. 
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']

出典

2017-12-19 06:53:40

トークン化と正規表現トークナイザ

答えて

関連する問題