2016-12-20 6 views
0

大量のテキストブロブで "DestinationLocationに"パターンを検索しようとしています。 次の使用:Python re - 最初の単語をパターンの後に抽出する

pattern = re.compile("to (.*)") 
string = #text blob 
pattern.search(string) 
# When I see the output 
>>> _.group(1) 
DestinationLocation blah blah blah ... 

どのようにして撮影したテキストからのみ「DestinatiionLocation」を抽出していますか?

+0

DestinationLocationは、文書化されたまたは文書化されていない場所名のプレースホルダです。 – madhavi

+0

私が抽出しなければならない単語は "to"の後に来ます。それはどんな単語でもかまいません。 – madhavi

+1

だから、あなたは特定の形式を持たないが、単語 "to"の後に一度しか出現しない単語を探していますか?だから、 '\ bto \ b。* \ b'?そこに「何回」起こりますか? – Ben

答えて

2

あなたは、次のスペースを嚥下することなく、1またはそれ以上の長さで、唯一のアルファベット文字から作られた言葉を見つけ、その\w+(1+の長さを持つ単一アルファ)を​​使用したい:

pattern = re.compile("to (\w+)") 

、単語が実際にの単語to the mallのような)の場合、to the mall.(ドットリミッター)のような単語シーケンスの終わりを示す文字と、利用可能な文字セットを含むインクルードスペースがドットで終わります:

pattern = re.compile("to ([\w ]+)\.") 
+1

ありがとうございました!マジックのように動作します! – madhavi

関連する問題