2017-10-18 3 views
1

テレグラムチャンネルの画像を解析しようとしています。例:https://t.me/versusbattlerus、画像はこのブロックにあります。 "img class =" tgme_page_photo_image "src =" https:// ... "毎回の方法が異なるといない作業のリンクを返します。このスクリプトは私に取り組んでいますhttpを解析すると、http壊れたリンクが返されます。

方法

import urllib.request 
from bs4 import BeautifulSoup 


def get_html(url): 
    response = urllib.request.urlopen(url) 
    return response.read() 


def parse(html): 
    soup = BeautifulSoup(html, 'lxml') 
    image = soup.find('img', class_="tgme_page_photo_image") 
    print(image) 
    #return image 


def main(): 
    parse(get_html('https://t.me/versusbattlerus')) 


if __name__ == '__main__': 
    main() 
+1

これは – chad

答えて

0

beautifulsoup4、なぜこれが起こるかのpython 3.6を使用して I'am、urllibはを、のために「壊れた」のリンクを提供してくださいテスト。

それはバグがある場合は、シンプルなLinuxのシェルの解決方法を試してください:

curl -s https://t.me/SeanChannel |grep -oP '"og:image" content="\K.+(?=")' 
+0

申し訳ありませんが、あなたは私のスクリプトは、あなたのために働い意味私と一緒に正常に動作しますか?だからあなたはイメージを正しく開くことができますか? –

+0

@ T3h_vermili0nうん、私はそれを開くことができます – Sean

関連する問題