Pythonのスクレイプurllib2のHTTPエラー

は私がサイトをこすりしようとしていますが、私は、サイトを開いているし、それを更新した場合、私のコードにのみ機能します。私は複数のものを試してみましたが、以下の2つのエラーに来続けてきた：最初：ValueErrorを：「HTTPError：HTTPエラー416：要求された範囲ないの充足」Pythonのスクレイプurllib2のHTTPエラー

urlslist = open("list_urls.txt").read() 
urlslist = urlslist.split("\n") 
for urlslist in urlslist: 

htmltext = urllib2.urlopen("www..."+ urlslist) 
data = json.load(htmltext)

を、私はまた、いくつかのヘッダーと、そのようなを使用してみましたが、取得していますエラー 'ValueError：No JSONオブジェクトをデコードできませんでした'：

req = urllib2.Request('https://www....) 
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36') 

htmltext = urllib2.urlopen(req) 
data = json.load(htmltext)

私は困惑していますか？

出典

2016-03-29 sky44

"www ..."それはあなたのコードですか？ –

http://stackoverflow.com/help/mcveをお読みください。 – boardrider

URLは次のとおりです。http://www.stubhub.com/beyonce-tickets-beyonc--san-diego-qualcomm-stadium-5-12-2016/event/9519801/ – sky44

-1

URLを要求すると、あなたが "HTTP（S）：//" が含まれる必要があり、同様の部分を。

htmltext = urllib2.urlopen("https://www." + urlslist)

場合：あなたが持っているテキストファイルだけで（代わりにhttps://www.google.comの、テキストファイルはgoogle.comを持っているなど）のURLの「name.com」の部分が含まれていると仮定すると、これはあなたが必要とするコードですURLはstubhub.comです（あなたのコメントで言及したように）、あなたは "s"は必要ありません。

htmltext = urllib2.urlopen("http://www." + urlslist)

jsonエラーは、ロードするjsonファイルがないことが原因である可能性があります。開発者パネルを見て、json形式のファイルが取り込まれていることを確認する必要があります。

出典

2016-04-12 00:28:41 ArashkG

Pythonのスクレイプurllib2のHTTPエラー

答えて

関連する問題