2011-01-20 10 views
3

現在、非常に大きなデータセット(10億ドル)からデータを効果的に格納および取得する方法に問題があります。私たちはmysqlを使用しており、システム、OS、RAID、クエリ、インデックスなどを最適化しており、現在移行を検討しています。非常に大きなデータセット(リレーショナルDBを超えて)を格納およびクエリする方法

私は、データの問題を解決するためにどの技術を追求するかについて十分な情報を得て決定する必要があります。私はHDFSでmap/reduceを調べていますが、HBaseについても良いことを聞いています。私は助けることはできませんが、他のオプションもあると思います。利用可能な技術と、それぞれのトレードオフを比較することができますか?

それぞれに共有するリンクがある場合は、私もそれを感謝します。

答えて

4

広範な問題です。私は指示を出そうとし、それぞれについてあなたはもっと詳しい情報を見たり求めたりすることができます。 最初のものは従来のDBです。データが貴重なものであれば、RAIDと良好なサーバーを持つことができます.Oracleは良いかもしれませんが、高価なソリューションです。 TPC-Hは、意思決定支援クエリの業界標準ベンチマークであり、http://www.tpc.org/tpch/results/tpch_perf_results.aspであり、最高のパフォーマンス結果へのリンクです。ご覧のように、RDBMSはテラバイトのデータに拡張できます。
2番目はHDFS + Map/Reduce + Hiveの形式のHadoopです。 Hiveは、MapReduceの上にデータウェアハウジングソリューションです。データを元の形式で保存し、線形に拡大するなどの追加の利点があります。非常に複雑なクエリのインデックス作成と実行
第3のものは、MPP - 大規模なパラレル処理データベースです。数十から数百のノードまで拡張可能で、豊富なSQLサポートを備えています。例としては、Netezza、Greenplum、Asterdata、Verticaがあります。それらの中から選択するのは簡単な作業ではありませんが、より正確な要件を満たすこともできます。

関連する問題