2015-10-23 27 views
7

http://google.comからコンテンツをスクラップしようとしています。 エラーメッセージが表示されます。 open.connectionでrvest open.connection(x、 "rb")のエラー:タイムアウトに達しました

library(rvest) 
html("http://google.com") 

エラー(X、 "RB"):
タイムアウトはまた達した:
警告メッセージを: 'HTML' は廃止されました。
代わりに 'read_html'を使用してください。
は、これはおそらくファイアウォールまたはプロキシによって引き起こされる(「非推奨」)

私は会社のネットワークを使用しているため、ヘルプを参照してください。私はset_configを使用しようとしますが、動作しません。

+0

エラーメッセージに 'html'が推奨されていないので、' read_html'コマンドを試してみましたか?これで問題は解決しないかもしれませんが、出力がもっと役に立ちます... – drmariod

+0

はい、 open.connection(x、 "rb"):タイムアウトに達しました さらに:警告メッセージ: クローズ未使用の接続3(http://google.com) – user3267649

+0

実際には、このコードは私のホームネットワークで正常に動作します。会社のネットワークでこのコードを使用しようとすると、エラーが発生します。 – user3267649

答えて

3

これはおそらく、read_html(またはあなたの場合はhtml)を呼び出す際に、コンテンツを取得しようとしているサーバーに対して自分自身を正しく識別できないという問題です(これはデフォルトの動作です)。 curlを使用して、read_htmlのhandle引数にユーザーエージェントを追加して、スクレーパーが自分自身を識別できるようにします。

library(rvest) 
library(curl) 
read_html(curl('http://google.com', handle = curl::new_handle("useragent" = "Mozilla/5.0"))) 
7

オフィスネットワーク内のプロキシの背後に作業しているとき、私は同じError in open.connection(x, “rb”) : Timeout was reached問題に遭遇しました。

はここ

library(rvest) 
url = "http://google.com" 
download.file(url, destfile = "scrapedpage.html", quiet=TRUE) 
content <- read_html("scrapedpage.html") 

はクレジット、私のために働いていたものです:https://stackoverflow.com/a/38463559

0

私のVPNがオンにされたので、私はこの問題に遭遇しました。それをオフにした直後に、私は再試行し、問題を解決しました。

関連する問題