2011-02-01 14 views
0

Webページとやりとりし、人間のやり方と似た方法で情報を抽出する、よりインテリジェントなWebスパイダーを構築する方法のアイデアがあります。 ブラウザとしてのWebページの表現

は、私たちは私たちのブラウザで見たものと同様または同一であるウェブページの表現を必要とするこれを行うには

つまり

私はすべての場所、色やスタイルに関するデータにアクセスする必要があります場合によってはピクセルレベルのページ上の要素

しかし、私は、ちょうどレンダリングしたビットマップを望んでいない私は、テキストを抽出し、リンクをクリックして、ボタンを押すことができるようにしたいので、

に私はDOMモデルは、出発点であってもよい感じが、より取得

明確にするために、ブラウザで私たちに提示されたものと同様の形式でプログラムでWebページへのアクセスを取得したいと思います。たとえば、特定のピクセル位置の色やテキストを確認する領域。

答えて

2

Selenium(またはグレースモンキーなどのブラウザをスクリプト化する他の方法)を確認してください。 Webページがどのように表示されるかは、特定のブラウザによって大きく左右されるため、スクリプトを記述することは、ユーザが見るものを得るための最も正確な方法です。

+0

ありがとうございましたが、私の主な懸念事項は、C++プログラムなどを使ってプログラムで操作したり操作したりできるように、そのようなデータにアクセスすることです。ブラウザのレンダリング間の相違はそれほど大きな問題ではありません。 – zenna

+0

greasemonkeyを使用すると、プログラムでアクセスできます。 :-) C++の場合は、WebKitやIEのActiveXコントロールを使用することをお勧めします。 –

関連する問題