2012-01-24 14 views
2

私はPython 2.7.1でBeautiful Soup 3.2を使用しています。Beautiful soupのUnicodeEncodeError(python 2.7.1)

私は最近、仕事に簡単な何かを取得しようとしてきたが、それ はかなりトリッキーなようだ:

私は次のようにします。

temp=BeautifulSoup(urllib2.urlopen(urlList[1], None,15)) 

しかし、私はエラーを取得する:

File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__ 
BeautifulStoneSoup.__init__(self, *args, **kwargs) 
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in __init__ 
self._feed(isHTML=isHTML) 
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed 
SGMLParser.feed(self, markup) 
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed 
self.goahead(0) 
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead 
k = self.parse_endtag(i) 
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag 
self.finish_endtag(tag) 
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag 
method = getattr(self, 'end_' + tag) 
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfa' in 
position 4: ordinal not in range(128) 

別の回で同じループを実行すると、ときどき私も次のようになります。

File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__ 
BeautifulStoneSoup.__init__(self, *args, **kwargs) 
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in 
__init__ 
self._feed(isHTML=isHTML) 
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed 
SGMLParser.feed(self, markup) 
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed 
self.goahead(0) 
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead 
k = self.parse_endtag(i) 
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag 
self.finish_endtag(tag) 
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag 
method = getattr(self, 'end_' + tag) 
UnicodeEncodeError: 'ascii' codec can't encode characters in position 
4-5: ordinal not in range(128) 

このエラーを回避するにはどうすればよいですか?明らかに、sgmllib.pyの何かが間違っています。

私はSOFからいくつかの解決策を試してみました:

*] soup = BeautifulSoup(page, fromEncoding=<encoding of the page>) 結果しようとしました:Dosent仕事、同じエラーを。

*]私のsgmllib.pyを2.7.2バージョンから2.7.1バージョンにアップグレードしようとしました 結果:Dosentの作業、同じエラー。

*]試したhtml = BeautifulSoup(page.encode('utf-8')) 結果:Dosent work、同じエラー。

このエンコードエラーを解決する方法については、お勧めします。あなたが解析しようとしているページがUTF-8以外diffferntエンコーディングを持っているよう

+0

モジュールでこのコードを試すには思えます。あなたはsoup = BeautifulSoup(page、fromEncoding =)と何を試しましたか? – Bogdan

+0

こんにちはボグダン、私はスープ= BeautifulSoup(ページ、fromEncoding = "utf-8")を試みたしかし、私は同じエラーが発生します。 – JohnJ

+0

あなたが解析しようとしているページのエンコーディングが "utf-8"であることは確かですか? – Bogdan

答えて

4

if __name__ == "__main__": 
    reload(sys) 
    sys.setdefaultencoding("utf-8") 
+0

私の無知だが、あなたのif name == "main"の内部: " - これも挿入するコードですか?はいの場合は、このコードをどこに含めるべきですか? sys.setdefaultencodingが機能しません。 sys.getdefaultencodingはasciiを返します。 – JohnJ

+0

書式設定によって難読化された正しい構文を表示するようにコードを更新しました。 –

+1

それは絶対的な天才です。上記のコードは、UnicodeEncodeErrorを削除します。私が理解できないように思えるのは、上記のコードがどのように動作するかです。何が "if __name__ ==" __main__ ":" do?説明していただけますか? – JohnJ

関連する問題