5

今日、私は膨大な量のデータを格納し処理するデータウェアハウスを作成することに挑戦してきました。推定金額は1日当たり7億件を超える。データは7日間保存する必要があります。平均イベントサイズは約0.5〜1Kbです。データを次のように処理する必要があります。大きなデータウェアハウスの選択

  • レポートを生成する必要があります。
  • 列車モデル。現在

私は評価しています:

  • GoogleのBigQueryの
  • 赤方偏移
  • Stratio +カサンドラ+ AWS + EMR + EBS
  • Clouderaの+ AWS

だから私興味がある:

あなたの会社の内部で使用
  • 溶液(フレームワーク、セットアップ、データベース、ノードの量など)
  • 可能管理の複雑さ(DevOpsチーム)
  • 我々が使用
+2

**プロフェッショナルなサーバーまたはネットワーク関連のインフラストラクチャ管理に関する質問**は、プログラミングやプログラミングツールに直接関わらない限り、スタックオーバーフローのトピックではありません。あなたは[Server Fault](http://serverfault.com/tour)に関する助けを得ることができるかもしれません。 –

+0

@MoralesBatovskiそうではありませんが、トピックは大きく、StratioとCloudera社のようなソフトウェアソリューションとフレームワークが関係しています。そしてbigqueryは弾力性があり、APIを介してのみ動作します... –

+0

too broad and offtopic。 –

答えて

1

があれば、実際のコストの例/比較BigQueryの、長所:

  • SQL、ベース列
  • は列のJSONデータをサポートしています - >利点、非構造化
  • 非常に安価な1ペタバイトの月額$ 21k。
  • 、Googleがサービスを管理する一切DevOpsチーム
  • 100 000行/秒摂取能力を
  • は、リンクされたプレゼンテーションからあなたを見つける

よりユースケースとアーキテクチャをスライド#24を見ていない:私は最近http://www.slideshare.net/martonkodok/complex-realtime-event-analytics-using-bigquery-crunch-warmup

+0

あなたの経験から見つけたご意見はありますか? –

+2

プロフェッショナルサポートの欠如、奇妙なAPIエラー、非常に高度なSQL開発者が必要ですが、これは楽しいです。 – Pentium10

4

BigQuery、Spark、Hive、Presto、ElasticSearch、AWS Redshift、AWS EMR、Google Dataprocを比較したMark Litのシリーズに基づいてこの要約を書いた:

https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison

要約の要約:

  • 同じデータセット(10億行)、同じクエリ、多くの技術と構成。
  • BigQueryがクエリを実行するのに最も速いのは2秒です。
  • デフォルトでは、BigQueryが高速でした。最適化やデータの前処理が不要でした。 25分で10億行がロードされ、データの照会準備が整いました。
  • 他のソリューションでは(かなりのコストで)データを読み込むのに時間がかかり、BigQueryよりも何倍も遅くなりました。

しかし、あなたが得ることができる最良のベンチマークはあなた自身です:BigQueryを試すのはすばやく簡単です。次に、データを高速でロードしたり、高速でクエリを実行したり、価格に近づける別のプラットフォームを見つけようとします。マークは試みました、そして、それは彼の所見でした。

+0

ありがとうよい投稿 –

関連する問題