2017-12-19 20 views
1

私は私が私が希望トークン化と正規表現トークナイザ

['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS'] 

として出力を得る

tokenizer = RegexpTokenizer(r'\w+')   

としての私のトークナイザを定義するとき

MOST INTERESTED IN NUT BUTTERS 

トークナイザ正規表現で次の文をトークン化したいです出力は

['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS'] 

私はナッツバターは私が定期的にどのような表現の代わりに使用したり、\ wの+

+0

'STR = 'NUT BUTTERS''に最も興味' str.split('」、3) ' –

+0

これは単なる例はstament.Thereがあるより多くのそのようたstatmentsを持つ文書私はすべての中で欲しいナットバターが同じであるべき味わい –

+0

「ナットバター」の仕組みはどういうふうに扱われていますか? –

答えて

0

あなたが正規表現溶液で行きたい場合は、1として抽出し、このようなあなたの正規表現を構築する必要がスペースを含む単語のリストを作成する必要がありますため

word space1|word space2|word space3|...|word spaceN|\w+ 

あなたの例では、それは次のようになります。

NUT BUTTERS|\w+ 
+0

ありがとうございます –

+0

私はちょうど例としてナッツバターを使用しました。テキストファイルから別の言葉をここに入れることができます。例えば、私のテキストファイルがNUT BUTTERS MANGO APPLEを持っているなら、私は正規表現のそれらのすべてにしたいと思います –

0

ではなくsplit()を試してみて理解していないのです一つの要素 になりたいです。

>>> str = 'MOST INTERESTED IN NUT BUTTERS' 
>>> str.split(' ', 3) # 3 tells the number of splits it should do. 
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS'] 
関連する問題