カンマで区切った文字列もアンパサンドを分割します

以下のコードはHTMLを解析しますが、アンパサンドがデータに現れると問題が分裂します。カンマで区切った文字列もアンパサンドを分割します

from HTMLParser import HTMLParser 

data = '<HTML><meta http-equiv="Pragma" content="no-cache"></head>'\ 
'<body>107,1,236,1000,70,498,NameA NameB & NameC - ActionA ActionB</body></html>' 

class MyHTMLParser(HTMLParser): 
     def handle_data(self, data): 
      print data.split(',') 

parser = MyHTMLParser() 
parser.feed(data)

それが唯一のコンマの代わりに '&' を分割され
出力。

['107', '1', '236', '1000', '70', '498', 'NameA NameB '] 
['&'] 
[' NameC - ActionA ActionB']

おかげ

出典

2012-04-19 Eric Fortis

カンマのみで分割しています。 HTMLパーサーは "＆"を別のトークンとして扱います。 – yak

唯一の '＆'はPCDATAセクションでは無効です。 –

多くのありがとうございます –

さて私は

data2 = data.replace('&', 'and')

出典

2012-04-19 05:07:46

代替ソリューションは、<body>タグに値をフェッチし、Beautifulsoupまたはお好みの任意のライブラリを使用してdata.split(',')を使用して解析し、これは移動するための方法だと思います。

出典

2012-04-19 05:44:00 Kracekumar

カンマで区切った文字列もアンパサンドを分割します

答えて

関連する問題