テキストからすべての文字列と数字を抽出しようとしています。regexを使用するとすべての数字と単語番号が抽出されます
text = 'one tweo three 10 number'
numbers = "(^a(?=\s)|one|two|three|four|five|six|seven|eight|nine|ten| \
eleven|twelve|thirteen|fourteen|fifteen|sixteen|seventeen| \
eighteen|nineteen|twenty|thirty|forty|fifty|sixty|seventy|eighty| \
ninety|hundred|thousand)"
print re.search(numbers, text).group(0)
これは私に最初の桁の数字を与えます。
私の予想結果= [「1」、「2」、「3」、「10」]
すべての単語、よく桁の数字は、私がリストに得ることができるようにどのように私はそれを修正することができますか?
'' re.findall'を使用して追加するには、以下より良いものが必要| [0-9 ] + 'あなたのパターンに分岐します。 https://ideone.com/w9Q0QZを参照してください。 'tweo'はタイプミスですか? –
さて、ここにはもっと問題があります。あなたは、あなたがほとんどすべての言葉に興味があるので、私が信じる言葉の境界も使う必要があります。 –
なぜ「10」にマッチするのですか? – ClasG