2012-03-16 17 views
0

変更が発生したときにサイトを監視するソフトウェアをPythonで作成する必要があります。現時点で私は定期的なタスクを持っており、以前のバージョンとサイトの内容をチェックします。サイトのコンテンツが変更されたか、最後に変更されたかどうかを確認する簡単な方法はありますか?サイトの最新の変更を取得

答えて

4

HEAD HTTPメソッドを使用して、実際にコンテンツ全体を再度ダウンロードする前に、Date-ModifiedETagヘッダーなどを見ることができます。

しかし、エンティティの(URLの)コンテンツが変更された場合、または実際にはHEADメソッドに正しく応答する場合でも、サーバーがこれらのヘッダーを実際に更新することは保証されません。

1

あなたの質問に答えることはできません私は、変更を探すために以前のバージョンのウェブサイトを保存する必要はありません。あなたはちょうどmd5を数えてこの合計を保存し、それから新しいバージョンを数え、それらが等しいかどうかをチェックすることができます。

質問自体については、AKXが大きな回答をくれました。ちょうどDate-Modifiedヘッダーを探しますが、動作することは保証されていません。

+0

ありがとうございます。私は現時点でハッシュを使用していますが、古いものと比較するために新しいハッシュを提供するためにコンテンツをダウンロードする必要がありますが、コンテンツが長くなり、サイトを離れて監視しています。 – Damir

関連する問題