Webサーバーから異常なhtmlファイルが返される

Webクローラで作業しているときに、私はこの奇妙な事態に遭遇しました。以下はhttp://nexgen.aeのために、ウェブサーバから返されたページの内容の抜粋です：Webサーバーから異常なhtmlファイルが返される

< ! D O C T Y P E H T M L P U B L I C " -// W 3 C// D T D H T M L 4 . 0 T r a n s i t i o n a l// E N " > 

< H T M L > < H E A D > < T I T L E > N e x G e n T e c h n o l o g i e s L L C | F i n g e r p r i n t T i m e A t t e n d a n c e M a n a g e m e n t S y s t e m | A c c e s s C o n t r o l M a n a g e m e n t S y s t e m | F a c e R e c o g n i t i o n | D o o r A c c e s s C o n t r o l | E m p l o y e e s A t t e n d a n c e | S o l u t i o n P r o v i d e r | N e t w o r k S t r u c t u e d C a b l i n g | D u b a i | U A E) </T I T L E >

あなたが見ることができるように、Webサーバは、元のHTMLソース内の他のすべての文字の後に空白文字を挿入しているようです。私は、Firefoxで "ページソース"を使ってHTMLソースをチェックしましたが、余分なスペースはありませんでした。私は同じウェブサイトから他のウェブページをチェックして、それらのページの正しいHTMLファイルを取得しています。これまでのところ、Webクローラを介してアクセスすると、このWebサイトのデフォルトページでのみ問題が発生しているようです。

私は、htmlファイルに「google optimizer tracking script」が含まれていることに気付きました。問題がそれと何か関係があるのだろうか... ...

これは、Webクローラーを遠ざけるウェブ管理者の方法かもしれませんか？そうであれば、robots.txtファイルが実行されます。

出典

2011-06-26 Chiraz B

おそらくスペースではなく、nullバイトです。ページはUTF-16（1文字あたり2バイトの倍数、最小2）でエンコードされています.HTTPヘッダーでそのエンコードが正しく指定されていないため、ASCII（1バイトあたり1バイト）おそらくUTF-8（1文字あたり1バイト以上）。

私の言いたいことは、ブラウザで開き、エンコーディングを変更する（ブラウザのメニューのどこかで、ページを右クリックしなければならないかもしれない）、UTF-16LEオプションを選択します。

出典

2011-06-26 13:22:53 Andrea

ありがとう、房、感覚の全体を作る！ –

Webサーバーから異常なhtmlファイルが返される

答えて

関連する問題