2011-01-16 4 views
0

私はウェブサイトからコンテンツを取得し、解析し、必要なものを抽出し、データベースに格納しようとしています。cURLの後に行うことは?または、PHPで文字列を解析する最善の方法は?

私はPHPを使用しています。

私は必要なページを通過してHTMLコンテンツを取得するcURLを使用してスクリプトを作成しました。さて、私が理解していることから、私はその文字列をページのHTMLから完全に取り出して解析できるツールやライブラリが必要です。

どのように(最高)PHPでそれを行うためのヒント?

答えて

2

HTML構造に従う必要がある場合は、DOM拡張子を使用してください。メソッドloadHTMLを使用してデータをロードし、次にDOMDocumentまたはSimpleXMLドキュメント(変換する場合はsimplexml_import_domを使用)としてデータを使用できます。

文書の構造を理解していてもいけないものを抽出する必要がある場合は、regular expressionsを使用してください。

関連する問題