httpを解析すると、http壊れたリンクが返されます。

テレグラムチャンネルの画像を解析しようとしています。例：https://t.me/versusbattlerus、画像はこのブロックにあります。 "img class =" tgme_page_photo_image "src =" https：// ... "毎回の方法が異なるといない作業のリンクを返します。このスクリプトは私に取り組んでいますhttpを解析すると、http壊れたリンクが返されます。

方法

import urllib.request 
from bs4 import BeautifulSoup 


def get_html(url): 
    response = urllib.request.urlopen(url) 
    return response.read() 


def parse(html): 
    soup = BeautifulSoup(html, 'lxml') 
    image = soup.find('img', class_="tgme_page_photo_image") 
    print(image) 
    #return image 


def main(): 
    parse(get_html('https://t.me/versusbattlerus')) 


if __name__ == '__main__': 
    main()

出典

2017-10-18 T3h_vermili0n

これは – chad

beautifulsoup4、なぜこれが起こるかのpython 3.6を使用して I'am、urllibはを、のために「壊れた」のリンクを提供してくださいテスト。

それはバグがある場合は、シンプルなLinuxのシェルの解決方法を試してください：

curl -s https://t.me/SeanChannel |grep -oP '"og:image" content="\K.+(?=")'

出典

2017-10-18 09:52:59 Sean

申し訳ありませんが、あなたは私のスクリプトは、あなたのために働い意味私と一緒に正常に動作しますか？だからあなたはイメージを正しく開くことができますか？ –

@ T3h_vermili0nうん、私はそれを開くことができます – Sean

httpを解析すると、http壊れたリンクが返されます。

答えて

関連する問題