Pythonで数字/文字トークンを区切ります

私はre.split()を使って文字列をトークンに分割しています。現在、引数として使用しているパターンは[^\dA-Za-z]で、文字列から英数字のトークンを取得します。Pythonで数字/文字トークンを区切ります

しかし、私が必要とするのは、数値と文字の両方をトークンに分割することです。

re.split(pattern, "my t0kens")

は、["my", "t", "0", "kens"]を返します。

私はlookahead/lookbehindを使う必要があるかもしれないと思っていますが、それが実際に必要か、それとももっと良い方法があるか分かりません。

2011-06-30 caroline

代わりにfindallメソッドを試してください。

編集：以下のBartのコメントからの改善。パターン内に捕捉括弧を使用することにより

>>> print re.findall('[a-zA-Z]+|\\d+', "my t0kens") 
['my', 't', '0', 'kens'] 
>>>

2011-06-30 08:47:04 kjp

はあなたの2つの提案の組み合わせに絞ることができ、コードの1行にしなければなりません： '印刷re.findall（ '[a-zA-Z]の+ | \\ D +'「、私の"['my'、 't'、 '0'、 'kens']' –

@Bart - これははるかに優れています！ – kjp

バートの編集では、これは私の答えよりもはるかに優れています。 +1 –

ない完璧な、しかし下記のリストからスペースを削除すると

re.split('([\d ])', 'my t0kens') 
['my', ' ', 't', '0', 'kens']

docs :-)簡単です。「パターンの出現により、分割文字列キャプチャ括弧はパターンで使用されている場合は、すべての後、テキストパターン内のグループも結果のリストの一部として返されます。

2011-06-30 08:45:59

>>> [x for x in re.split(r'\s+|(\d+)',"my t0kens") if x] 
['my', 't', '0', 'kens']

、トークンはまた、リターンとなります。空白ではなく数字だけを維持したいので、私は\sを括弧の外側に残しました。したがって、Noneが返され、単純なループを使用してフィルタリングすることができます。

2011-06-30 08:50:45

これは、検索される1桁の数字しかない場合に機能します。一般的なケースでは、複数の場合があります。 – caroline

これは簡単に修正できます。回答が更新されました。もちろん、kjpの答えの解はまだまだエレガントです。その代わりに使用してください。 –

は

re.findall('[a-z]+|[\d]+', 'my t0kens')

2011-06-30 08:56:18

小文字のみ？ –

答えて