テーブル内のテキストの構文解析が機能しない

タグに次のテキストを取得しようとしています。テーブル内のテキストの構文解析が機能しない

<td align="center" valign="top">I AM TRYING TO GET THIS</td>

これは表であり、この特定のテキストは、特定の行や列ですが、私は列の残りの部分と一緒にこれを取得しようとしています。

私はループのために試してみました、と私もこれを試してみました：

r = driver.get("url") 

htmltext = htmlfile.read() 

regex = '<td align="center" valign="top">(.+?)</td>' 

pattern = re.compile(regex) 

grade = re.findall(pattern,htmltext) 

print(grade)

私はそれを行うにはBS4の方法を好むだろう。

出典

2016-11-20 KingPey

'requests'は、HTMLの構文解析のためではなく、データを送信するためではありません動作するはずです。 – furas

BeautifulSoup： 'for x in soup.find_all（ 'td'）：print（x.text.strip（））' – furas

htmltext = htmlfile.read（）？このhtmlファイルはどこから来たのですか？おそらくそれはr.read（）の –

私はそれを確認することはできませんが、それは

import requests 
from bs4 import BeautifulSoup 

url = 'http://www.w3schools.com/html/html_tables.asp' 

r = requests.get(url) 

soup = BeautifulSoup(r.text, 'html.parser') 

for x in soup.find_all('td'): 
    print(x.text.strip())

出典

2016-11-20 14:52:50 furas

私はこのエラーを取得します：AttributeError： 'NoneType'オブジェクトに属性 'text'がありません – KingPey

これはあなたがページ上の要素を見つけませんでしたが、 'text'を使用していることを意味します。 .text' – furas

要素はありますか？これを修正するためにあなたの答えを編集できますか？どのようにするか知っていますか？ – KingPey

テーブル内のテキストの構文解析が機能しない

答えて

関連する問題