これで、すべてのリンクが有効であれば私のサイトをチェックするためにPHPでアプリケーションを書いています。PHP内からHTMLの特定の部分を抽出する
問題が発生しました。 SimpleXmlとDOMDocumentオブジェクトを使用してタグを抽出しようとしましたが、サンプルサイトでアプリを実行すると、SimpleXmlオブジェクトタイプを使用すると大抵の場合エラーが発生します。
SimpleXmlを使用するのと同じくらい簡単なhref属性のhtmlドキュメントをスキャンする方法はありますか?
<?php
// what I want to do is get a similar effect to the code described below:
foreach($html->html->body->a as $link)
{
// store the $link into a file
foreach($link->attributes() as $attribute=>$value);
{
//procedure to place the href value into a file
}
}
?>
ので、基本的に私は上記の操作を予備成形する方法を探しています。事は、私は現在、私は得ることの次原始的な方法を使用しています、ただ明確にする...私は私はそれでhtmlコードを取得していた文字列を扱うべきかのよう
を混乱していていますhtmlファイル:
<?php
$target = "http://www.targeturl.com";
$file_handle = fopen($target, "r");
$a = "";
while (!feof($file_handle)) $a .= fgets($file_handle, 4096);
fclose($file_handle);
?>
どれ情報が役に立つだけでなく、上記の問題は、よりエレガントに(のpython、CまたはC++)を固定されている他の言語の選択肢だろう
をしようとしてくれてありがとう、私は間違いなくあげることを、より多くのエレガントな何かが必要だろうこのショットは、いくつかの項目をルックアップする必要があるが、私は今私が探す必要があることを見て、それは問題ではないと思う –
DOMDocumentとDOMXPathは非常に素晴らしいと貧しい/壊れたHTMLでも非常に寛容です。あなたはそれでできる負荷があります:) –
ええ、私はDOMXPathを試し始めました。そしてそれは楽しみのような継ぎ目です。しかし、私はphp.netで提供されているものより深いドキュメンテーションが必要になります。その例は、私が望むほど有益ではありません。 –