2011-07-15 24 views
2

Morningstarのウェブページをスクラップすることができます。モーニングスターは、私が日常見上げるが、他の場所で見つけることができていない投資信託に関する情報を提供してすなわちスクリーンスクレイピング用のmorningstarのWebページをダウンロード

  1. トータルリターンは
ランキング
  • パーセンタイルは、ピアと比較したベンチマークと比較
  • トータルリターンここで

    は例です:スクリーンスの前置きとしてmorningstar example

    、私はデザイアーズでWebページをダウンロードできるようにする必要があります編集されたコンテンツ。残念ながら、上記の例のリンクを取得するためにJava SE6またはwgetを使用しようとすると、HTMLの一部しか取得されません(テーブルの総数は表示されません)。ブラウザ(Chrome)を使用すると、HTMLのみとしてページを保存すると同じ結果が得られます。私は完全なページ(html、js、css、および他のすべて)を保存するために私のブラウザを使用する場合、ダウンロードされたHTMLに興味深い情報が含まれていることに気付きます。

    1. がどのように私はプログラム的に全体htmlファイルをダウンロードすることができます。

      私は2つの質問がありますか?私はこのプログラムをJavaで書いていますが、私は外部ツールを呼び出すことはありません。

    2. 私の前の試みが私が期待していたHTMLを生み出していないのはなぜですか?

    ありがとうございます。

    私は、Yahoo FinanceとYQL/datatablesを代替案として検討しましたが、Yahoo Financeはパーセンタイルのランキングを提供していません。ミューチュアルファンドのパフォーマンスを調べると、ランキングのN/A値が表示されます。 Yahoo Finance example。残念ながら、これはYQL/datatablesの使用を排除します。彼らの著作権表示は、2番目の段落の最後の文で可能にモーニングスターの著作権、私は個人的、非商業的な使用のためにスクリーンスよ、のいずれかの質問について

    :あなたが情報を使用する権利があり

    それあなたのプライベートのために、 は非商用目的でのみ使用されています。 Morningstar Copyright

  • +0

    WWW:Mechanizeはこの種のタスクに優れています。 – Eamorr

    +0

    データを入手したら、そのデータを使って何をする予定ですか? – marto

    +0

    @Eamorrはページソースを見て、WWW :: Mechanizeのドキュメントを読んで、これがうまくいかない理由を教えてください。 – marto

    答えて

    3

    morningstarウェブページをダウンロードするには、ウェブページに関連付けられたJavaScriptコードをダウンロードして解釈するツールが必要でした。異なるプログラミング言語やブラウザ用の多くのツールがStackOverflowで紹介されています。ここに私が使用して巻き取るものです:

    • htmlunit - JavaプログラムのためのGUIレスのブラウザは
    • htmlunitscripter
    • - Firefoxのアドオンその自動生成htmlunitコード私の経験、Perlので
    0

    http://irobotsoft.comでirobotを試しましたか?関心

  • のデータが
  • テストに行動を取るデータアクションを追加し、それはあなたが
  • をしたいデータを抽出した場合に表示さ

    • GoはURLへ
    • マーク:あなたはこれを確認することができます

      一般的なスクリーンスクレイピングに関する質問をするフォーラムがあります

    1

    このページでは、XMLHttpRequest tあなたのスクレーパーがjavascriptの評価を実行する必要があることを意味するデータを入力します。 Chromeでデベロッパーツールを使用している場合は、ページを作成するために使用されたHTMLと表を作成するために使用されたJSONデータを見ることができます。

    これを掻き集めるには、Internet Explorerを使用して、そのページ全体をホストし、JavaScriptの評価を行うことができます。おそらくWebKitなどのAPIを使用する他の方法がありますが、IEはすぐに機能するはずです。

    +0

    ご返信ありがとうございます。私はhtmlunitで遊んできて、あなたが指摘していたことを実現しました。私はjavascriptを処理するために何かが必要です。 – DannyTree

    関連する問題