2011-06-26 11 views
0

Webクローラで作業しているときに、私はこの奇妙な事態に遭遇しました。以下はhttp://nexgen.aeのために、ウェブサーバから返されたページの内容の抜粋です:Webサーバーから異常なhtmlファイルが返される

< ! D O C T Y P E H T M L P U B L I C " -// W 3 C// D T D H T M L 4 . 0 T r a n s i t i o n a l// E N " > 

< H T M L > < H E A D > < T I T L E > N e x G e n T e c h n o l o g i e s L L C | F i n g e r p r i n t T i m e A t t e n d a n c e M a n a g e m e n t S y s t e m | A c c e s s C o n t r o l M a n a g e m e n t S y s t e m | F a c e R e c o g n i t i o n | D o o r A c c e s s C o n t r o l | E m p l o y e e s A t t e n d a n c e | S o l u t i o n P r o v i d e r | N e t w o r k S t r u c t u e d C a b l i n g | D u b a i | U A E) </T I T L E > 

あなたが見ることができるように、Webサーバは、元のHTMLソース内の他のすべての文字の後に空白文字を挿入しているようです。私は、Firefoxで "ページソース"を使ってHTMLソースをチェックしましたが、余分なスペースはありませんでした。私は同じウェブサイトから他のウェブページをチェックして、それらのページの正しいHTMLファイルを取得しています。これまでのところ、Webクローラを介してアクセスすると、このWebサイトのデフォルトページでのみ問題が発生しているようです。

私は、htmlファイルに「google optimizer tracking script」が含まれていることに気付きました。問題がそれと何か関係があるのだろうか... ...

これは、Webクローラーを遠ざけるウェブ管理者の方法かもしれませんか?そうであれば、robots.txtファイルが実行されます。

答えて

1

おそらくスペースではなく、nullバイトです。ページはUTF-16(1文字あたり2バイトの倍数、最小2)でエンコードされています.HTTPヘッダーでそのエンコードが正しく指定されていないため、ASCII(1バイトあたり1バイト)おそらくUTF-8(1文字あたり1バイト以上)。

私の言いたいことは、ブラウザで開き、エンコーディングを変更する(ブラウザのメニューのどこかで、ページを右クリックしなければならないかもしれない)、UTF-16LEオプションを選択します。

+0

ありがとう、房、感覚の全体を作る! –

関連する問題