2009-08-11 20 views
3

私はさまざまなサイトからのデータマイニングを含むプロジェクトを進めていますが、eBayオークションで統計データを収集するのは良いアナロジーです。しかし、キーデータを保存するだけでなく、元のページへのアクセスを確実にする必要があります。一部のサイトでは、完成後にeBayがオークションのページを削除した場合など、元のページは永久的ではありません。 Googleがページをキャッシュする方法と似たようなシステムを持つことが理想的です。たとえば、自分のサーバーにページのコピーを保存します。しかし、私は合併症だけでなく、私のデータベースに必要なリソースに大きな影響があるかもしれないとアドバイスされています。データベースのページをキャッシュする最も良い方法は?

答えて

3

あなたがキャッシュする各ページがわずか5kbであっても、それは時間が経つにつれて合計されます。キャッシュ200ページで、DBに1MB追加しました。キャッシュ20,000ページ、あなたは100MBを使用しています。多くのページ(マークアップ+コンテンツを考慮した場合)は5kbよりも大きくなります。

代替可能な選択肢の1つは、ディレクトリに(潜在的に圧縮された)ファイルとしてディスクに保存し、データベース内の保存されたファイル名を参照することです。 - ページコードの内容を最初のデータマイニングの後でクエリを実行すると、この方法ではデータベース全体のサイズを縮小し、結果をクエリ全体のページに保存できます。

0

Davが言ったことをエコーし​​ますが、同じページに何度も何度もインデックスを作成している場合は、変更を保存することも考えています。 varbinaryとしてテキストを格納すると、スペースを節約できます。 検索と並行して、索引ページと並行してLuceneを設定することができます。

0

保存されたページにサーバー側のCSS & JSファイルが含まれていないという問題があります。これは、キャッシングDB /ファイルシステムから提供されたときにひどくレンダリングされると思われますか?

ページの写真や画像はどうですか?

私は5Kbがページセーブのために低いと思うし、JSを含むページを保存するのはどうかと思う... AJAXページ特に。何が起こるかを正確に視覚化するのは難しいですが、ページ上のテキストを見るだけでよいでしょうか?

誰でもGoogleのキャッシュ機能について知っていますか?

関連する問題