</br>タグを使ってデータを抽出しています

私はこのデータを解析する必要があります。それは非常に多くのタグとデータがありますので、私にとってはあまりにもナビゲートが難しいです。以下のようになります。Pythonの辞書のリスト：</br>タグを使ってデータを抽出しています

[{ "学校"： "チャイルズ遊び"}、{ "プレイス"： "NEWYORK"}、{ "レベル"： "4"}、{」国 "：" USA "}、{" レベルコースの "：" イージー "}]

<div class="quick"> 
<strong>School</strong><br /> Childs play <br /><br /> 
<strong>Place</strong><br /> 
<a href="Search.aspx?Menu=new&amp;Me=">newyork</a><br /><br /> 
<strong>Level</strong><br />four<br /><br /> 
<strong>Country</strong><br />USA<br /><br /> 
<strong>Level Of Course</strong><br />Easy<br /><br /> 
</div>

beautifulsoupを使ってみましたが、成功しませんでした。助けてください。

出典

2012-04-18 Anshul

残念ながら、HTMLは理想的に構文解析のために構築されていませんが、意味のあるPython辞書にデータを抽出することは可能です。アイテムがNavigableStringのインスタンスであり、その要素は、<BR>タグでないことをチェックすることを確認するif not hasattr(x, "name") or not x.name == "br"最初のチェックを使用し

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup(htmlString) 

raw_data = soup.find(**{"class": "quick"}).contents 
data = [x for x in raw_data if not hasattr(x, "name") or not x.name == "br"]

。

dataは、[<KEY>, <VALUE>, <KEY>, <VALUE>]の形式になります。このデータから、データを抽出するのはかなり簡単です。

出典

2012-04-18 07:59:38

wow thanks ........ – Anshul

</br>タグを使ってデータを抽出しています

答えて

関連する問題