1

特定のWebサイトをスクラップする際に問題を抱えています。たとえば、これは動作します:ウェブスクレイピング最大リトライが拒否されました

page = requests.get('https://wsj.com/', proxies=proxydict) 

しかし、これにはないが:

page = requests.get('https://www.privateequityinternational.com/', proxies=proxydict) 

私が唯一の1ページをこすりにもかかわらず、「最大再試行」というエラーが表示されます(そして前にそれを掻き取っていません)。

私は掻き落とさないが機能していないウェブサイトのヘッダーを使用しようとしました。私は使用すべき特定のヘッダーがありますか?上記の2番目のウェブサイト(www.privateequityinternational.com)を削り取るにはどうすればよいですか?ありがとうございました。

+0

でヘッダパラメータを使用しますリクエスト '' headers = {あなたのヘッダdict} ''を取得します。私の場合、 '' page = requests.get( 'https://www.privateequityinternational.com/') ''これは動作しています –

+0

私は最初のURLからSSHエラーを受け取ります 'SSLError:hostname 'wsj.co m' doesnどちらにもマッチしません。私のブラウザでgoogleから警告が出ますが、サイトは何ですか? –

+0

wsj.comはウォールストリートジャーナル@Padraic – Essam

答えて

1

問題はページがないブラウザでHTTP上で提供されているHTTPS HTTPSを使用してページにアクセスしようとすると、Googleからの警告を受ける:

In [1]: import requests 
    ...: page = requests.get('http://www.wsj.com') 
    ...: 

In [2]: page 
Out[2]: <Response [200]> 
関連する問題