2012-01-07 6 views
0

私はTwitterプロファイルからいくつかのデータをダウンロードするスクリプトを作成しています。私は、Pythonのurllib2とBeautifulSoupでページを開くと、別のタグIDとクラスを取得するため、HTML構造がPythonの "ロボット"と比べてウェブブラウザで異なっていることがわかりました。 Webブラウザと同じコンテンツを取得する方法はありますか?ブラウザとPython Webオープナー用の異なるTwitter HTML構造

ウェブブラウザでは解決されたURLがリンクタイトル属性に格納されているため、短いURLを解決する必要があります。

答えて

1

ほとんどのWebサイトでは、要求に応じてUser-Agentヘッダーに従って応答が調整されます。何も設定されていない場合、これはブラウザではなく、ある種のスクリプトであることは明らかです。おそらく "実際の"ブラウザに幾分似ているUser-Agentヘッダーを設定したいと思うでしょう。これを行うための方法の

多くがここで説明されています。ここChanging user agent on urllib2.urlopenと:Fetch a Wikipedia article with Python

を無関係なノートで、あなたは標準urllib2よりもはるかに優れAPIであるRequestsを、使用することをお勧めします。

1

twitterのプロフィール情報をスクレイプしないでください。 apiを使用します。あなたのプログラム全体がはるかに頑強になります。おそらくあなたのユーザーエージェントを変更して物事を混乱させるのは、TOSには反対です。

関連する問題