jQueryとXPathでWebページをスクラップする方法はありますか？

Firebug経由でWebページのヘッダーにjQuery JavaScriptのリンクを張ることができます。それから私はそれを掻き集めるためのスクリプトとそれがリンクしているページを実行することができます。jQueryとXPathでWebページをスクラップする方法はありますか？

このスクリプトをjQueryまたは一般的なJavaScriptで作成するにはどうすればよいですか？いずれかのjQuery/Javascriptに、ページ上の要素（およびリンク先のページ）にアクセスするためのXPathを使用できるインタフェースがありますか？

出典

2012-03-08 dangerChihuahua007

あなたはすぐにページのHTMLを取得することができます：これはリテラル文字列を返しますし、それがルート要素をキャプチャしません

var html = document.documentElement.innerHTML;

。

出典

2012-03-08 16:09:22 austincheney

ありがとうございました。リンクしているページを自動的に削り取る方法を知っていますか？ – dangerChihuahua007

子の '' sを繰り返して、それらのページの内容も読み込みます。 – msanford

まず、ブラウザの外にJavaScriptランタイムが必要です。最も一般的なのはNode.jsです。次に、DOMクライアント側を作成する方法が必要になります。これは通常jsdomを使用して行われます。

だから、あなたのスクリプトはすべき：

jQueryの
パースを作成
（jsdomがあなたのためにこれを行いますが、あなたはrequestを使用することができます）htmlページをダウンロード

サンプルNode.jsスクリプトを次に示します。

var jsdom = require("jsdom"); 

jsdom.env("http://nodejs.org/dist/", [ 
    'http://code.jquery.com/jquery-1.5.min.js' 
    ], function(errors, window) { 
    console.log("there have been", window.$("a").length, "nodejs releases!"); 
});

ので、同様にあなたは、それを実行します：

$ node scrape.js

が最初jsdomをインストールすることを忘れないでください：

$ npm install --production jsdom

出典

2012-03-08 16:28:06

あなたは、まさにこのために構築されたWeb-こするライブラリに興味があるかもしれません目的（免責事項：これは私のプロジェクトです）。これは、コマンドラインから実行できるヘッドレスWebkitの実装であるPhantomJSに基づいており、複数のページからデータをスクラップし、スパイダーとスクレイプへの追加のURLを見つけるための非常に単純な構文を持っています。

出典

2012-03-17 20:08:41 nrabinowitz

ありがとうございます。あなたのプロジェクトは興味深いと思う。私がjQueryとJavascriptを使用しているのは、私がスクラップしようとしているページがログイン保護されているからです。これがうまくいくと思いますか？ – dangerChihuahua007

これにはPhantomJSを使うことはできますが、まだpjscrapeで行うことはできません。ログイン設定によって異なります。もう1つの選択肢は、実際に開いているブラウザで動作するSeleniumを使用することです。これにより、非常に複雑なログイン操作を処理できます。 – nrabinowitz

jQueryとXPathでWebページをスクラップする方法はありますか？

答えて

関連する問題