pythonこれらの文字列を取得する方法

text=u’<a href="#5" accesskey="5"></a><a href="#1" accesskey="1"><font color="#667755">\ue689</font></a><a href="#2" accesskey="2"><font color="#667755">\ue6ec</font></a><a href="#3" accesskey="3"><font color="#667755">\ue6f6</font></a>‘

私はPythonの新しい手です。私は\ ue6ec、\ ue6f6、\ ue6ec、これらの文字列を使用してreモジュールを取得する方法を取得します。ありがとうございます！pythonこれらの文字列を取得する方法

出典

2010-11-26 user521023

うわー、この断片は意図的に難読化されているように見えます。これは実際には何から来ていますか？ – SingleNegationElimination

RegexpはHTMLで作業するには適していません。 Beautiful Soupを使用してください。

出典

2010-11-26 07:09:39 demas

ありがとう:)私は修正しました。 – demas

Don't use regular expressions to parse HTML。 BeautifulSoupを使用してください。 BeautifulSoupのDocumentation

出典

2010-11-26 07:11:46 user225312

ありがとうございます – user521023

>>> from BeautifulSoup import BeautifulSoup 
>>> text=u'<a href="#5" accesskey="5"></a><a href="#1" accesskey="1"><font color="#667755">\ue689</font></a><a href="#2" accesskey="2"><font color="#667755">\ue6ec</font></a><a href="#3" accesskey="3"><font color="#667755">\ue6f6</font></a>' 
>>> t = BeautifulSoup(text) 
>>> t.findAll(text=True) 
[u'\ue689', u'\ue6ec', u'\ue6f6']

出典

2010-11-26 07:11:53 Kimvais

参考のために、 'u '\ ue689 \ ue6ec \ ue6f6''が生成されます。 –

最新のBeautifulSoup-3.0.0.pyにはgetText（）メソッドがありません。使用方法はありません。ありがとうございます。 – user521023

現在、修正されていません（実際には分割しなくて済みますので、単一の文字列にしたい場合は '' '.join（t.findAll（text = True） ' – Kimvais

ページが常にその形式になっていることがわかっている場合は、BeautifulSoupパーサーを使用して、HTMLで必要なものを探します。

ただし、不正な形式のHTMLによってBeautifulSoupが壊れることがあります。私はlibxml2のpythonバインディングであるlxmlを使うことをお勧めします。不正なHTMLを解析し、通常は修正します。

出典

2010-11-26 14:52:05

pythonこれらの文字列を取得する方法

答えて

関連する問題