まず、ブラウザの外にJavaScriptランタイムが必要です。最も一般的なのはNode.jsです。次に、DOMクライアント側を作成する方法が必要になります。これは通常jsdomを使用して行われます。
だから、あなたのスクリプトはすべき:
- jQueryの
を使用して、クライアント側のDOM
- パースを作成
- (
jsdom
があなたのためにこれを行いますが、あなたはrequestを使用することができます)htmlページをダウンロード
サンプルNode.jsスクリプトを次に示します。
var jsdom = require("jsdom");
jsdom.env("http://nodejs.org/dist/", [
'http://code.jquery.com/jquery-1.5.min.js'
], function(errors, window) {
console.log("there have been", window.$("a").length, "nodejs releases!");
});
ので、同様にあなたは、それを実行します:
$ node scrape.js
が最初jsdom
をインストールすることを忘れないでください:
$ npm install --production jsdom
ありがとうございました。リンクしているページを自動的に削り取る方法を知っていますか? – dangerChihuahua007
子の '' sを繰り返して、それらのページの内容も読み込みます。 – msanford