2009-06-24 4 views
1

私はFacebookのメッセージ http://www.autoblog.com/2009/06/22/we-are-all-bumblebee-beijing-transformers-fans-gather-to-celebr/ でブログ記事のURLを投稿し、それがRSSフィード http://www.autoblog.com/rss.xml からそれらをフェッチしているかのようFacebookはタイトルと略さテキストをインライン化が、私は、リンクを提出したときにブログ記事がすでに出て期限切れになりました私はチェックしました。FacebookはどのようにURL /フィードのコンテンツをプリフェッチしますか?

はこのスクリーンショットを参照してください。 http://i43.tinypic.com/nwbu4m.jpg

それは、FeedBurnerの検索を使用していますか?どのようにこれを同様に行うことができますか?

歓声

答えて

3

私は、彼らはいくつかの先進的なスクレーピングデータやHTMLの最上位ブロックを探して、それを使用しないと思います。基本的には、すべてをすばやく分析し、広告などを送り出し、大きなデータを使用します。

Diggは同様のことをやっています。

私はこれを実装するためにこれを行います。

  1. メタタグ、RSSフィードタグ、およびタイトルタグをスキャンします。
  2. 多くのコンテンツを含む大きな「領域」を検索します。また、pタグも含めてください。彼らに満足できるかどうかを重み付けしたり、格付けしたりする。キーワードCSSクラス/ ID(例えば率「コンテンツ」、「広告」または「ナビゲーション」
  3. ルック大きな画像用
  4. ストア将来の使用のためのサイトについての情報や改善ヒューリスティック

これよりも高い探しサーバサイドですべて実行され、AJAXを使用してブラウザに配信されます。

+1

Ajax経由でブラウザに配信されることは間違いありません(Firebugを使用して確認されています)。複雑です。 テキストデータの大きな「ブロブ」を持たないページでは、アルゴリズムが後退しているようですタグのような、よりシンプルなものもあります。たとえば、このリンクの場合 http://www.theweathernetwork.com/weather/caon0493 が使用されます。提案に感謝します。 – Peter

+0

私はスクリーンスクレイピングを避けることができたと思っていましたが、それはスケーラブルに実装するのは楽しいことではありません。 – john

+0

私は実際にWebKitの一部を使ってこのようなことに取り組んでいた人物を知っています。 –

関連する問題