BeautifulSoupを使用してリンクからメタデータを取得する

記事やウェブページの概要を表示するために、タイトル、説明、画像を得るためにリンクを削り取ろうとしています。現在、私はBeautifulSoupを通してメタプロパティを取得することによって、og：titleを持っています。これはニュース記事ではうまくいきます。BeautifulSoupを使用してリンクからメタデータを取得する

if tag.get("property", None) == "og:title":  
     scraper.title = tag.get("content", None)

ただし、links for an Amazon Echo for exampleは、画像や商品タイトルを引き取らないでください。 BeautifulSoupとPythonを使ってこれをやって、見つけた最初の画像とタイトルを任意のウェブサイトから引き出すにはどうすればいいですか？おそらくopengraphでサポートされているだけではないでしょうか？

出典

2016-12-31 Viji123

unicontentは、これを達成しようとするライブラリです。これは、opengraphタグ、HTMLタグ、または他のタイプのタグを取得します。私はそれがページ内の最初のイメージを得ることができるとは思わない。

出典

2017-02-21 02:52:37 jreid

BeautifulSoupを使用してリンクからメタデータを取得する

答えて

関連する問題