文字列から浮動小数点数を抽出するときに問題が発生しています。Pythonでユニコードとバックスラッシュを含む分割文字列
input = u'<strong class="ad-price txt-xlarge txt-emphasis " itemprop="price">\r\n\xa3450.00pw</strong>'
私が取得したい::文字列は、ウェブスクレイピングの出力である
output: 3450.00
が、私はそれを行うための方法を見つけることができませんでした。私は、機能を置き換える/スプリットでそれを抽出することを試みた:
word.split("\xa")
word.replace('<strong class="ad-price txt-xlarge txt-emphasis " itemprop="price">\r\n\xa','')
私はre
ライブラリを使用しようとしました。それはあなたのアイデアを持っていますか私はまだ\
と最終的には同じ問題を抱えている、それだけでこのように450.00
import re
num = re.compile(r'\d+.\d+')
num.findall(word)
[u'450.00']
抽出し、同様に動作しないのですか?
は、あなたが何をしようとしたのですか? –
どういう意味ですか?私が使った機能は? –
はい.. –