私はPHPでクロールスクリプトを作成しています。 PHP Simple HTML DOM Parserを使用しています。集計サイトのHTMLをクロールして作業する
HTMLを取得した後、各ページから情報の一部のみを抽出し、これらを自分のサイトの自分のHTMLページに集約する必要があります。
これを進める方法を理解できません。
何か助けていただければ幸いです。
を追加しました
私は
私はPHPでクロールスクリプトを作成しています。 PHP Simple HTML DOM Parserを使用しています。集計サイトのHTMLをクロールして作業する
HTMLを取得した後、各ページから情報の一部のみを抽出し、これらを自分のサイトの自分のHTMLページに集約する必要があります。
これを進める方法を理解できません。
何か助けていただければ幸いです。
を追加しました
私は
正規表現は、データのうち、複雑な情報を得るための方法かもしれないが、簡単なタグに対して(特定の地理やトピックに関連する場合)、いくつかの記事を抽出したいあなた
// URLからDOMを作成したり、ファイル
$のhtml = file_get_html(' http://www.google.com/:のようなものを使用することができます);
//すべての画像に($要素として$ HTML- >のfind(' IMG '))
のforeachを探す
は$、エレメント> SRCをエコー。 ' <br > ';
//($要素として$ HTML- >のfind(' '))のすべてのリンクに
のforeachを探す
は$、エレメント>のhrefをエコー。 ' <br > '; XPathは手動でDOMツリーをトラバースする必要はありません照会し、スクリプトがあなたがクロールするサイトの構造変化に対してより堅牢で使用
$doc = new DomDocument();
@$doc->loadHTMLFile($url);
$xpath = new DOMXpath($doc);
$nodeList = $xpath->query("your-xpath-query");
foreach ($nodeList as $node) {
// grab the content, attributes or whatever you'r looking for
}
:
イエス。どこから始めるのですか?あなたは何をしたいかのための戦略が必要です。たとえば、抽出したいもののいくつかとキーワードのファイルを使うことができます。あなたが取り出したいものを示すリストを実装することができます。この猫をスキンにする方法の多く.... – brumScouse
何ちょうどあなたが抽出したい....それは電子メールアドレスですか? –
*(関連)* [HTMLを解析するための最良の方法](http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662) – Gordon