Pythonを使用したWebスクラブ

urllib2とBeautifulSoupを使用して、http://www.nseindia.comというWebサイトをスクラップしようとしています。残念ながら、私はPythonを通してページにアクセスしようとすると403 Forbiddenを取得し続けます。私はそれがユーザーエージェントの問題だと思っていましたが、それを変更することは助けになりませんでした。それから私はそれがクッキーと関係があるかもしれないと思ったが、明らかにクッキーとのリンクを通ってページをロードすることはうまく動作する。 urllibを介して要求をブロックしている可能性がありますか？Pythonを使用したWebスクラブ

出典

2011-08-06 Sonia

http://www.nseindia.com/は何らかの理由でAcceptヘッダーを必要とするようです。これは動作するはずです：Acceptヘッダーなしの要求を拒否

import urllib2 
r = urllib2.Request('http://www.nseindia.com/') 
r.add_header('Accept', '*/*') 
r.add_header('User-Agent', 'My scraping program <[email protected]>') 
opener = urllib2.build_opener() 
content = opener.open(r).read()

が正しくありません。 RFC 2616は明らかに何のAcceptヘッダーフィールドが存在しない場合、クライアントは、すべてのメディアタイプを受け入れることが想定される

を述べています。

出典

2011-08-06 23:10:59 phihag

nice answer。好奇心のために、どうやってこれを発見しましたか？ – RoundTower

@RoundTower私は（Chromiumによる）作業要求を取得し、全く同じヘッダをPythonで追加しました。それがうまくいけば、私はHTTPヘッダーをすべて削除するようになりました。 – phihag

@phihag - Chromiumで働くリクエストをどうやって捉えましたか？ Chromeでこれを行うことはできますか？ – avi

Pythonを使用したWebスクラブ

答えて

関連する問題