2
urllib2とBeautifulSoupを使用して、http://www.nseindia.comというWebサイトをスクラップしようとしています。残念ながら、私はPythonを通してページにアクセスしようとすると403 Forbiddenを取得し続けます。私はそれがユーザーエージェントの問題だと思っていましたが、それを変更することは助けになりませんでした。それから私はそれがクッキーと関係があるかもしれないと思ったが、明らかにクッキーとのリンクを通ってページをロードすることはうまく動作する。 urllibを介して要求をブロックしている可能性がありますか?Pythonを使用したWebスクラブ
nice answer。好奇心のために、どうやってこれを発見しましたか? – RoundTower
@RoundTower私は(Chromiumによる)作業要求を取得し、全く同じヘッダをPythonで追加しました。それがうまくいけば、私はHTTPヘッダーをすべて削除するようになりました。 – phihag
@phihag - Chromiumで働くリクエストをどうやって捉えましたか? Chromeでこれを行うことはできますか? – avi