私は今朝、傷ついたWebページから文字列を処理しようとすると、何時間も不愉快な時間を過ごしました。私はキーワードを確認することができるように、抽出された文字列を小文字にする一貫性のある方法を得ることができないと思います。ここBeautifulSoupTag、文字列とUnicodeEncodeErrorがあまり美しくない
はDOM要素からテキストを取得するコードの抜粋である:
temp = i.find('div', 'foobar').find('div')
if temp is not None and temp.contents is not None:
temp2 = whitespace.sub(' ', temp.contents[0])
content = str(temp2)
UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position 150: ordinal not in range(128)
Iはまた、次のステートメントを試みた - のどれも働きました。すなわち、それらは同じエラーがスローされるの結果:
content = (str(temp2)).decode('utf-8').lower()
content = str(temp2.decode('utf-8')).lower()
誰もが小文字のASCIIにBeautifulSoupTag内に含まれるtehのテキストを変換する方法を知っていたので、私は、キーワード(複数可)のための大文字小文字を区別しない検索を行うことができますか?
を試してみてください:[ドキュメント](http://www.crummy.com/software/BeautifulSoup/documentation.html#BeautifulスープはあなたのUnicode、くそを与える) – methyl
をすることができます'unicode(temp2)'を使うだけですか? –
[あなたとほとんど同じ質問にあなたが受け入れた私の答えを読む](http://stackoverflow.com/q/9012607/4279) – jfs