2017-01-23 5 views
1

PHPの単純なHTML DOMパーサを使用して、ウェブサイトからスクレイプしたいと考えています。 ソースコードは、そのようなので、ランダムである:内部< pは> </P>、それは> <フォントを使用して入れています "(。。ロブはCo V)。詳細" を代わりに直接置くのPHPを使用した廃棄単純なHTML DOMパーサー

 <font face="Arial" color="#ff0000"> 
     <p>Parameters</p> 
     </font><font face="Arial" size="2" color="#ff0000"> 
     <p>Param1</p> 
     </font><font face="Arial" size="2" color="#0000ff"> 
     <p>Details. (Lob., </font><i><font face="Arial" 
     size="2" color="#ff0000">Co v</font><font face="Arial" size="2" 
     color="#0000ff">.)</p> 

と< I >。 私はこのコード

foreach($html->find('p') as $p) 
{ 
    echo $p->plaintext.'<br>'; 
} 

を使用する場合、私は、 "詳細を。(ロブ。、" 見つける< I>または<フォント>を見つけたときに止まる。 は、どのように私は、全体のライン「詳細を抽出することができます。(ロブ。、 Co V。)」

は、あなたが不要なタグを削除した後、あなたはDOMパーサーを使用することができます。不要なタグを削除するにはstrip_tags()機能を使用することができ、あなたの答え

+0

「擦り傷」_を意味しますか?ただ確実にする。 –

+0

はい申し訳ありませんが、私は擦り傷を意味します – balimaco00

答えて

1

いただき、ありがとうございます。

strip_tags()関数は、HTML、XML、PHP タグから文字列を取り除きます。

文字列strip_tags(文字列$ strの[、文字列$ allowable_tags])

あなたはphp.net

例にstrip_tags()関数の詳細読むことができます:

$html = '<font face="Arial" color="#ff0000"> 
    <p>Parameters</p> 
    </font><font face="Arial" size="2" color="#ff0000"> 
    <p>Param1</p> 
    </font><font face="Arial" size="2" color="#0000ff"> 
    <p>Details. (Lob., </font><i><font face="Arial" 
    size="2" color="#ff0000">Co v</font><font face="Arial" size="2" 
    color="#0000ff">.)</p>'; 

$html = strip_tags($string, '<p>'); 
echo $html; 

を結果:

<p>Parameters</p> 

    <p>Param1</p> 

    <p>Details. (Lob., Co v.)</p> 
関連する問題