2016-06-12 4 views
0

DataSax AcademyのCassandraビデオの1つを見ていました。彼らがよく話す概念の1つは、クエリ駆動型のモデリングです。これはKillrVideoの例のようにクエリが先行していることを知っているときに意味があります。クエリ駆動型モデリングとビッグデータ

しかし、大きなデータのケースでは、アナリストが5ヶ月または1年後のデータに対してどのような種類のクエリを実行するかわからないと思っているだけではないと思います。

この場合、データを保存するためのベストプラクティスは何ですか?私の推測では、そのようなデータの高度なクエリでは、データをSparkにロードすることになります。しかし、検索時に操作上のトラブルやトラブルを避けるために、保管時には何を考慮する必要がありますか?どのような検索方法が問題になるのでしょうか?

答えて

0

カサンドラは、分析ユースケースのデータベースでもありますが、Ad-Hocアナリティクスでは必ずしもそうとは限りません(1つのレポートのみで、このクエリは再び実行されません)。

このユースケースでは、ハープループクラスタが最適です。 (たぶん、hadoopのparquete)クエリが何度も何度も実行されることがわかると、Cassandraはあなたの友人です。通常、Cassandraを使用例の50〜70%で使用できます。列キーと二次インデックスを使用すると、実際にはさまざまな種類のクエリを実行できます。アナリティクスガイに移動し、必要なものを尋ねます。次に:テーブルを作成します。

関連する問題