2016-09-06 10 views
0

私はpython2で作業しています。私はHTMLページのdivの内容を取得したいと考えていました。クラス属性のないネストされたdivのBeautifulSoup.find_all

<div class="lts-txt2"> 
    Some Content 
</div> 

のdivクラスは上記のようなものであるならば、私はその後

BeautifulSoup.find_all('div', attrs={"class": 'lts-txt2'}) 
を使用して

BeautifulSoup.find_all('div', attrs={"class": 'lts-txt2'}) 

しかし、div要素が似ている場合は、

<div class="lts-txt2"> 
    <div align="justify"> 
     Some Content 
    </div> 
</div> 

を使用してコンテンツを取得することができます

はコンテンツを返しません。 は、だから私は

BeautifulSoup.find_all('div', attrs={"align": 'justify'}) 

にしようとしたが、それも働いていませんでした。 問題をどのように解決できますか?

答えて

0

あなたはElement.get_text() methodとネストされたノードを含むノードからすべてのテキストを抽出することができます。

[el.get_text() for el in soup.find_all('div', attrs={"class": 'lts-txt2'})] 

これは、ネストされたdivがある天気をかないような各div、のテキストコンテンツのリストを作成します内部。

soup.select('div.lts-txt2 > div') 

また、ネストされたdiv要素を選択するために、CSS selector Element.select() functionを使用することができます

関連する問題