私はPython 2.7.1でBeautiful Soup 3.2を使用しています。Beautiful soupのUnicodeEncodeError(python 2.7.1)
私は最近、仕事に簡単な何かを取得しようとしてきたが、それ はかなりトリッキーなようだ:
私は次のようにします。
temp=BeautifulSoup(urllib2.urlopen(urlList[1], None,15))
しかし、私はエラーを取得する:
File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__
BeautifulStoneSoup.__init__(self, *args, **kwargs)
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in __init__
self._feed(isHTML=isHTML)
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed
SGMLParser.feed(self, markup)
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed
self.goahead(0)
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead
k = self.parse_endtag(i)
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag
self.finish_endtag(tag)
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag
method = getattr(self, 'end_' + tag)
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfa' in
position 4: ordinal not in range(128)
別の回で同じループを実行すると、ときどき私も次のようになります。
File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__
BeautifulStoneSoup.__init__(self, *args, **kwargs)
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in
__init__
self._feed(isHTML=isHTML)
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed
SGMLParser.feed(self, markup)
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed
self.goahead(0)
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead
k = self.parse_endtag(i)
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag
self.finish_endtag(tag)
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag
method = getattr(self, 'end_' + tag)
UnicodeEncodeError: 'ascii' codec can't encode characters in position
4-5: ordinal not in range(128)
このエラーを回避するにはどうすればよいですか?明らかに、sgmllib.pyの何かが間違っています。
私はSOFからいくつかの解決策を試してみました:
*] soup = BeautifulSoup(page, fromEncoding=<encoding of the page>)
結果しようとしました:Dosent仕事、同じエラーを。
*]私のsgmllib.pyを2.7.2バージョンから2.7.1バージョンにアップグレードしようとしました 結果:Dosentの作業、同じエラー。
*]試したhtml = BeautifulSoup(page.encode('utf-8'))
結果:Dosent work、同じエラー。
このエンコードエラーを解決する方法については、お勧めします。あなたが解析しようとしているページがUTF-8以外diffferntエンコーディングを持っているよう
モジュールでこのコードを試すには思えます。あなたはsoup = BeautifulSoup(page、fromEncoding =)と何を試しましたか? – Bogdan
こんにちはボグダン、私はスープ= BeautifulSoup(ページ、fromEncoding = "utf-8")を試みたしかし、私は同じエラーが発生します。 – JohnJ
あなたが解析しようとしているページのエンコーディングが "utf-8"であることは確かですか? – Bogdan