2016-11-19 3 views
1

美しいスープ4を使用して、本文テキストに含まれるリンクのニュースサイトを解析しています。リンクが含まれている段落をすべて見つけることができましたが、paragraph.get('href')の戻り値のタイプはnoneです。私はPython 3.5.1を使用しています。どんな助けでも本当に感謝しています。美味しいスープで指定されたクラス内のリンクを見つける方法

from bs4 import BeautifulSoup 
import urllib.request 
import re 

soup = BeautifulSoup("http://www.cnn.com/2016/11/18/opinions/how-do-you-deal-with-donald-trump-dantonio/index.html", "html.parser") 

for paragraph in soup.find_all("div", class_="zn-body__paragraph"): 
    print(paragraph.get('href')) 

答えて

1

本当にこれが欲しいですか?

for paragraph in soup.find_all("div", class_="zn-body__paragraph"): 
    for a in paragraph("a"): 
     print(a.get('href')) 

paragraph.get('href')試みはあなたが見つけ<div>タグに属性hrefを見つけることに注意してください。そのような属性がないので、Noneを返します。おそらくあなたは、実際にすべてのタグを見つける必要があり<a>いるあなた<div>(これは、そのhref属性のすべての要素<a>一見のために、その後paragraph.find_all("a")のショートカットがあるとされparagraph("a")で行うことができます。

の子孫
関連する問題