2017-01-12 6 views
1

私は数ヶ月間Pythonを学び、いくつかのウェブスクレイピングで練習しています。いくつかの参考文献を入手するにはamazon(O'Reilly)の本を使っていましたが、私にはちょっと混乱した例があります。次のように印刷美しいスープ値は、ウェブサイトに表示されている値と異なる値を返します

コードは次のとおりです。ただし

bsObj = BeautifulSoup(urlopen("https://isitchristmas.com"), "html.parser") 
print (bsObj.find("a", {"id":"answer"}).attrs['title']) #returns "IFTTT" 

を、私はページ上のコードにそれを比較して、タイトルの値を見ることができるように、IFTTTないその「NO」

<a id="answer" href="https://ifttt.com/isitchristmas" target="_blank" title="NO">NO</a> 

まとめてみると、同じタグの同じ属性を見ていると、なぜ私に異なる値を与えるのか分かりません。誰かが私がこのことを理解したり、正しい方向に私を指す助けることができれば

<!-- 
    Initial 'title' and noscript values are server-side fallbacks, 
    calculated with UTC, for clients who do not have JS enabled. 
    --> 

それでも、私は感謝:私は見ることができました

唯一のことは言うコメントです。

おかげ

答えて

1
print (bsObj.find("a", {"id":"answer"}).text) 

これはHTMLコードです:

<a id="answer" href="https://ifttt.com/isitchristmas" target="_blank" title="IFTTT"> 
<noscript>NO</noscript> 

あなたが必要なもの、タグ、ないtitle属性のstringです。

+1

ありがとう、私はまだいくつかの構文と概念のハングを取得しています。 – rammpeth

+0

@ 'の中の@rammpethには、 '<> string <\>'の間にattrsがあります。これは文字列/ textです。 –

関連する問題