2009-03-28 10 views
3

私のアプリケーションは、RSS/Atomフィードを追跡し、新しいエントリをデータベースに保存する必要があります。私の質問はです。フィード内のエントリが既にクロールされているかどうかを判断する最も信頼できる方法は何ですか?フィードをクロールする方法

私はUniversal Feed Parserモジュールを使用してフィードを解析します。現在の実装では、feed.entry[i].updated_parsedという最新の値の記録を保持しています。エントリの値がupdated_parsedの場合にクロールすると、その値がデータベースに保存されます。ここで問題となるのは、多くのフィードに公開日または更新日がないことです。

答えて

3

あなたはすでに、主に(<guid>の不在に<link>にフォールバック)その<guid>を参照することにより、エントリ、および唯一の二次分析として、日付とは何かをクロールしてきたかどうかを決定する必要があります。

関連する問題