2016-05-31 4 views
0

こんにちは私はregexの初心者です。私はPythonを使い始めています。 私は英語の文章からすべての単語を抽出することに固執しています。 これまでのところ、私が持っている:文字列内のすべての単語を検索するためのPython正規表現

import re 

shop="hello seattle what have you got" 
regex = r'(\w*) ' 
list1=re.findall(regex,shop) 
print list1 

これは、出力が得られます。

[ 'こんにちは'、 'シアトル'、 '何'、 'は'、 'あなたは']

:私は

regex = r'(\w*)\W*' 

して出力することにより、正規表現を交換した場合0

[ 'こんにちは'、 'シアトル'、 '何'、 'あなたは'、 '得' 'いる'、 '']

私は、この出力は

たいのに対し、私が間違っているつもりどこ

が私をポイントしてください[「こんにちは」、「シアトル」、「何」、「あなたは」、「得」「います」]。

答えて

2

使用ワード境界\b

import re 

shop="hello seattle what have you got" 
regex = r'\b\w+\b' 
list1=re.findall(regex,shop) 
print list1 

OP : ['hello', 'seattle', 'what', 'have', 'you', 'got'] 

または単に\w+が十分

import re 

shop="hello seattle what have you got" 
regex = r'\w+' 
list1=re.findall(regex,shop) 
print list1 

OP : ['hello', 'seattle', 'what', 'have', 'you', 'got'] 
です
関連する問題