2012-04-18 8 views
1

私はこのデータを解析する必要があります。それは非常に多くのタグとデータがありますので、私にとってはあまりにもナビゲートが難しいです。以下のようになります。Pythonの辞書のリスト:</br>タグを使ってデータを抽出しています

[{ "学校": "チャイルズ 遊び"}、{ "プレイス": "NEWYORK"}、{ "レベル": "4"}、{」国 ":" USA "}、{" レベル コースの ":" イージー "}]

<div class="quick"> 
<strong>School</strong><br /> Childs play <br /><br /> 
<strong>Place</strong><br /> 
<a href="Search.aspx?Menu=new&amp;Me=">newyork</a><br /><br /> 
<strong>Level</strong><br />four<br /><br /> 
<strong>Country</strong><br />USA<br /><br /> 
<strong>Level Of Course</strong><br />Easy<br /><br /> 
</div> 

beautifulsoupを使ってみましたが、成功しませんでした。助けてください。

答えて

1

残念ながら、HTMLは理想的に構文解析のために構築されていませんが、意味のあるPython辞書にデータを抽出することは可能です。アイテムがNavigableStringのインスタンスであり、その要素は、<BR>タグでないことをチェックすることを確認するif not hasattr(x, "name") or not x.name == "br"最初のチェックを使用し

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup(htmlString) 

raw_data = soup.find(**{"class": "quick"}).contents 
data = [x for x in raw_data if not hasattr(x, "name") or not x.name == "br"] 

dataは、[<KEY>, <VALUE>, <KEY>, <VALUE>]の形式になります。このデータから、データを抽出するのはかなり簡単です。

+0

wow thanks ........ – Anshul

関連する問題