2016-09-12 14 views
2
でのメインのHTMLファイル

I'amで見つけることカントサイトからデータを取得: page = requests.get('http://www.finam.ru/profile/moex-akcii/aeroflot/news/?start-date=2016-01-01&end-date=2016-12-31',auth=('user', 'pass'))のpythonを使用して、要求を行うPythonの

私は私ができることを、すべてのものを見つけることができるようになりますことを、期待してい私がウェブサイトを見ると、参照してください。私はcertianとライブラリに精通していないためにそれを知らないとしてではなく、私はそれを手動でチェックしてみてください:

  1. 私はページのランダムな部分に右クリックし、「ページコードを表示」を選択します。そして、実際には、私はそこに必要な情報を見つけることができません!
  2. 私はページのランダムな部分に右クリックして選択し、「研究この要素」、と私は奇妙な「木」構造であり、それを見つけることができます: research this item

をそこで問題は、HTMLファイルであります私はリクエストをするときに受け取る? 「ツリー構造」からトピック名を取得する方法について説明します。 HTMLを含む合計noob。

+0

divのクラス "subject"を探します。これは私があなたが探していたと思うものです。まだそれが見えない場合、以下の答えが説明です。 –

答えて

1

ソースhtmlのほかに、Webサイトで実行されているDOM(ツリー構造)を操作して変更するJavaScriptコードがあります。 Python経由でリクエストすると、JavaScriptコードが実行されず、最初のhtmlコードしか表示されません。そのようなものをスクレイピングと呼ぶと、あなたはselenuimのようなツールでそれをやることができます

関連する問題