PythonでBeautifulSoupを使用して、 "script"タグのコードから "SNG_TITLE"と "ART_NAME"の値を抽出します。PythonでBeautifulSoupを使用してスクリプトタグからデータを抽出
<script>window.__DZR_APP_STATE__ = {"TAB":{"loved":{"data":[{"SNG_ID":"126884459","PRODUCT_TRACK_ID":"360276641","UPLOAD_ID":0,"SNG_TITLE":"Heathens","ART_ID":"647650","PROVIDER_ID":"3","ART_NAME":"Twenty One Pilots","ARTISTS":[{"ART_ID":"647650","ROLE_ID":"0","ARTISTS_SONGS_ORDER":"1","ART_NAME":"Twenty One Pilots","ART_PICTURE":"259dcf52853363d79753ec301377645d","SMARTRADIO":"1","RANK":"487762","LOCALES":[],"__TYPE__":"artist"}],"ALB_ID":"13371165","ALB_TITLE":"Heathens","TYPE":0,"MD5_ORIGIN":"5cea723b83af1ff0a62d65d334b978d4","VIDEO":false,"DURATION":"195","ALB_PICTURE":"3dfc8c9e406cf1bba8ce0695a44a9b7e","ART_PICTURE":"259dcf52853363d79753ec301377645d","RANK_SNG":"967143","SMARTRADIO":"1","FILESIZE_AAC_64":0,"FILESIZE_MP3_64":"0","FILESIZE_MP3_128":"3135946","FILESIZE_MP3_256":0,"FILESIZE_MP3_320":"7839868","FILESIZE_FLAC":"21777150","FILESIZE":"3135946","GAIN":"-12","MEDIA_VERSION":"4","DISK_NUMBER":"1","TRACK_NUMBER":"1","VERSION":"","EXPLICIT_LYRICS":"0","RIGHTS":{"STREAM_ADS_AVAILABLE":true,"STREAM_ADS":"2000-01-01","STREAM_SUB_AVAILABLE":true,"STREAM_SUB":"2000-01-01"},"ISRC":"USAT21601930","DATE_ADD":1497886149,"HIERARCHICAL_TITLE":"","SNG_CONTRIBUTORS":{"mainartist":["Twenty One Pilots"],"engineer":["Adam Hawkins"],"mixer":["Adam Hawkins"],"masterer":["Chris Gehringer"],"drums":["Josh Dun"],"producer":["Mike Elizondo","Tyler Joseph"],"programmer":["Mike Elizondo","Tyler Joseph"],"vocals":["Tyler Joseph"],"writer":["Tyler Joseph"]},"LYRICS_ID":30553991,"__TYPE__":"song"},{"SNG_ID":"99976952","PRODUCT_TRACK_ID":"171067651","UPLOAD_ID":0,"SNG_TITLE":"Stressed Out","ART_ID":"647650","PROVIDER_ID":"3","ART_NAME":"Twenty One Pilots","ARTISTS":[{"ART_ID":"647650","ROLE_ID":"0","ARTISTS_SONGS_ORDER":"1","ART_NAME":"Twenty One Pilots", ...</script>
(スクリプト全体が貼り付けるには長すぎる)コードのアイデアは、特定のページで見つけることができ、すべての曲とアーティスト名をユーザー名をプリントアウトすることです。
import requests
from bs4 import BeautifulSoup
base_url = 'https://www.deezer.com/en/profile/1589856782/loved'
r = requests.get(base_url)
soup = BeautifulSoup(r.text, 'html.parser')
user_name = soup.find(class_='user-name')
print(user_name.text)
これはユーザー名を表示します。
for script in soup.find_all('script'):
print(script.contents)
私が正しく理解していれば、必要なスクリプトは辞書なので、見つけてその内容を取得するだけです。問題は私が具体的にを正確に見つける方法がわからないことです。 "スクリプト"です。独自の属性や何も持たないものはありません。だから私は、ページ上のすべてのスクリプトを見つけ出し、その内容を印刷するループを試みましたが、さらに進める方法はわかりません。
ページ上でこの特定の「スクリプト」のみを見つけるにはどうすればよいですか?別の方法で値にアクセスできますか?
"window .__ DZR_APP_STATE__"を含むスクリプト要素を抽出しますか? – RussellB
コード内のスクリプトを数えます - 場所を変更せず、正しいものを得るためにインデックスを使用します。 3番目のスクリプト 'soup.find_all( 'script')[2]' – furas
BTW:scriptは通常の文字列ですので、標準の文字列関数を使用してチェックします。つまり、 'script.contents:' ' – furas