2009-04-30 10 views
0

私はいくつかの性犯罪者の情報を収集するためのカールスクリプトを書いています、私は下記のようにリンクを拾っているスクリプトを開発しました:正規表現を使用してWebページからデータを抽出するにはどうすればよいですか?

http://criminaljustice.state.ny.us/cgi/internet/nsor/...(切り取らURL)

今、私たちは、このリンクに行くとき私は、このページのすべてのフィールドの下で犯罪者ID、姓などの情報を自分の変数に入れたいと思っています。私は正規表現が非常に弱いので、私はここにいるのです。それとも別の方法がありますか?

誰でも私にそれを手伝ってもらえますか?

答えて

4

phpQueryを参照すると、スクリーン・スクレイピングPHPでのための非常にいいです(正規表現を望んでいない。それはあなたが使用してDOMにアクセスすることができます同じ方法でjQueryがあり

+0

よろしくお願いします。 –

0

私は正規表現は、仕事のための適切なツールであることないことについて、以前のポスターに同意する傾向があるあなただけの迅速かつ汚い表現をしたい場合は、ここに行く:。。

Offender Id:.* 
.* [0-9]* 

注: この式に改行を含める必要があります。また、あなたが解析しているソースがまったく変わった場合、これは壊れてしまうので、これは非常に壊れやすいことに注意してください。

関連する問題