私の学校のHTML「グループ」ページを解析するPHPパーサーを開発中です。これらは、コースの名前といくつかの他の変数に基づいてユニークなURLを持つページです。このページは、HTML <table>
の束で構成されています。PHP DOMドキュメントLoadHTMLFileはかっこで中断されました
URLからHTMLを読み込むと、ファイルの内容の中で)
が見つかるまでうまく動作します。その後、読み込みが停止し、それまでに得られたものだけが保存されます。明らかに、ロードされたHTMLは私によって作成されたものではなく、そのような文字がHTMLコードに含まれないようにする方法はありません。
しかし、MAMPを使用してローカルで実行するとうまく動作します。私は答えを探してみましたが、私の問題を解決したものは見つかりませんでした。
ロードする前にこれらの文字をエスケープするにはどうすればよいですか?
私の現在のPHP:
$dom = new DOMDocument;
libxml_use_internal_errors(true); // the HTML i parse contains a lot of unclosed tags, this to prevent the errors from displaying on the page
$dom->loadHTMLFile('http://isarog.hhs.nl/Web_Site/HHS/ICTM/Public/Iris_Roster/Timetables/11_2/11_2-CMD-4vt-p2.html');
echo $dom->getElementsByTagName('html')->item(0)->nodeValue;
AFAIK括弧はhtmlで意味を持ちません。他に何もないのですか?同一のページを作成して括弧を付けずに読み込んだ場合、それは機能しますか? –
私はそれを試していませんが、 ''タグの 'nodeValue'をエコーすると、その括弧が現れるまですべてを表示します。 – Joey
さて、それを試してください。かっこの外には何がありますか? –