2011-10-27 7 views
1

私たちは、大量のデータ、最大150万回のタイムスタンプ付きレコード、約24MB、1秒あたり約2TBを作成するシステムを持っています。タイムスタンプの付いたデータを格納するプラットフォーム

データは複数のソースから提供され、複数のフォーマットを持ちますが、1つの共通点はタイムスタンプです。

現在、約5日間のデータをファイルに保存し、レポートを生成する社内ソフトウェアを用意しています。

私たちは、何年ものデータを保持して照会できるスケーラブルなシステムを構築しようとしています。

Nathan MarzがHow to beat the CAP theoremで説明したように、Hadoop/ElephantDBを長期バッチストレージに、Storm/Cassandraをリアルタイムレイヤーに使用しています。

コミュニティが他の選択肢を指摘したり、さらに読んだりすることができますか?

私たちのデータが主に時間によって整理されているという事実は、特定のタイプのソリューションに役立っていますか?

このような質問をするよりよいフォーラムはありますか?

おかげ

+0

集約/バッチレポートを実行する必要がありますか、何らかのリアルタイムアクセスが必要ですか。もしそうなら、アクセスパターンの例を挙げてください。 –

+0

集約/バッチレポートとリアルタイムアクセスの両方が必要です。通常、ユーザーは時間ベースのレポートを要求します。時刻t1〜t2におけるこのアイテム(またはこれらのアイテム)の値とは何ですか?特定の項目の値が範囲外であった回数。 – wsh8z

+0

1つのレポートに集計するデータのサイズは? –

答えて

0

同じ時間にリアルタイムでアクセスし、スケーラブルなバッチ処理の両方を持っているタフな問題です。
完全な解決策はありませんが、私は次の2つの機能を探求します。 a)時間とパーティション別の別のキー(クライアントIDなど)によるハイブ。このソリューションはあなたを与える:データの
良いパフォーマンスを集約レポート上の一つのサブパーティションへのアクセスの
おそらく許容時間を
良いスループットをインポートします。しかし、1-2秒になることはありません。

b)ブリスク。それは、HDFSに取って代わるカサンドラとのハープオーバーです。それはあなたが必要とするすべてを提供することを約束しましたが、私はデータロードのパフォーマンスとバッチレポートのパフォーマンスがバニラのハープに劣っていると期待していました。

関連する問題