1
all_pages関数を再帰的に呼び出すことによってウェブサイトのすべてのユニークなURLを取得しようとしていますが、この機能はウェブサイトのすべてのURLを提供していません。beautifulsoupを使用してウェブサイト全体をスクラップする方法
私がしたいのは、BeautifulSoupを使ってウェブサイトのすべてのユニークなURLを取得することです。また、あなたはいくつかの点で返す必要がある代わりにresponse.content
の
base_url = "http://www.readings.com.pk/"
unique_urls=[]
def all_pages(base_url,unique_urls=[]):
response = requests.get(base_url)
soup = BeautifulSoup(response.content, "html.parser")
for link in soup.find_all("a"):
url = link["href"]
absolute_url = urljoin(base_url, url)
if absolute_url not in unique_urls:
if base_url in absolute_url:
unique_urls.append(absolute_url)
print (absolute_url)
all_pages(absolute_url,unique_urls,book_urls)
all_pages(base_url,unique_urls)
ようこそサイードを。私はあなたがイメージとしてあなたのコードを持っているのを見ます。テキストとして配置し、エディタで{}を使用してコードスニペットとしてマークすることを強くお勧めします。人々はあなたを助けることができるでしょう。 [質問する](http://stackoverflow.com/help/how-to-ask)をお読みください。 – micstr