集計サイトのHTMLをクロールして作業する

私はPHPでクロールスクリプトを作成しています。 PHP Simple HTML DOM Parserを使用しています。集計サイトのHTMLをクロールして作業する

HTMLを取得した後、各ページから情報の一部のみを抽出し、これらを自分のサイトの自分のHTMLページに集約する必要があります。

これを進める方法を理解できません。

何か助けていただければ幸いです。

を追加しました

私は

2010-12-08 AJ.

イエス。どこから始めるのですか？あなたは何をしたいかのための戦略が必要です。たとえば、抽出したいもののいくつかとキーワードのファイルを使うことができます。あなたが取り出したいものを示すリストを実装することができます。この猫をスキンにする方法の多く.... – brumScouse

何ちょうどあなたが抽出したい....それは電子メールアドレスですか？ –

*（関連）* [HTMLを解析するための最良の方法]（http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662） – Gordon

正規表現は、データのうち、複雑な情報を得るための方法かもしれないが、簡単なタグに対して（特定の地理やトピックに関連する場合）、いくつかの記事を抽出したいあなた

// URLからDOMを作成したり、ファイル
$のhtml = file_get_html（' http://www.google.com/：のようなものを使用することができます）;

//すべての画像に（$要素として$ HTML- >のfind（' IMG '））
のforeachを探す
は$、エレメント> SRCをエコー。 ' <br > ';

//（$要素として$ HTML- >のfind（' '））のすべてのリンクに
のforeachを探す
は$、エレメント>のhrefをエコー。 ' <br > '; XPathは手動でDOMツリーをトラバースする必要はありません照会し、スクリプトがあなたがクロールするサイトの構造変化に対してより堅牢で使用

$doc = new DomDocument(); 
@$doc->loadHTMLFile($url); 
$xpath = new DOMXpath($doc); 
$nodeList = $xpath->query("your-xpath-query"); 
foreach ($nodeList as $node) { 
    // grab the content, attributes or whatever you'r looking for 
}

：

出典

2010-12-08 08:40:59 Skorpioh

は、あなたはそのような何かを行うことができます。

私はあなたが正しい軌道に乗ることを願っています。より詳細な例については、より多くの情報を提供する必要があります。

出典

2010-12-08 08:41:21 rik

XQueryに言及して以来：成熟したXQuery拡張モジュールまたはPHP用ライブラリ – Gordon

私はxpathクエリを意味します。私の答えを編集しました。 – rik

集計サイトのHTMLをクロールして作業する

答えて

関連する問題