2012-12-26 6 views
11

Bigdataに分類されるデータの量はどれくらいですか?"Bigdata"のデータはどのくらいですか?

これは、Hadoopのようなテクノロジを使い、分散コンピューティングの力を利用する時間と判断できるデータのサイズはどれくらいですか?

これらのテクノロジにはいくらかのプレミアムがあると思いますので、Bigdataメソッドを使用して現在のシステムを活用する方法を確認するにはどうすればよいですか? BigdataのためのWikiページから引用し

+2

この質問をする必要がある場合、データの量はそれほど大きくはありません:-) –

+0

いいえ私は、ハープの技術を使うかどうかを決める方法を知りたかったのです。 –

+1

@Shillそのことを知りたい場合は、どのようなデータを扱うべきか、どのような種類のクエリを実行しようとしているかを指定し、その特定の質問をする必要があります。「Hadoopはこの?"どのくらいのデータが「ビッグデータ」であるかを尋ねるだけではあまりにも曖昧すぎて非常に便利ではありません。人々は自分の仕事量に基づいて特定の数字を引用することができますが、必ずしもあなたには当てはまりません。 –

答えて

9

:など、私たちの伝統的なデータベース管理ツールを使用して、データの 一定量を、それは、検索を保存することが困難になる場合は、

分析、共有、 その大と複雑なデータセットはBigdataと呼ばれます。

基本的にはすべて相対的です。ビッグデータとは、データセットを管理する組織の能力によって異なります。一部の組織では、数百ギガバイトのデータに初めて直面すると、データ管理のオプションを再検討する必要が生じる場合があります。他の人にとっては、データサイズが重要な考慮事項になる前に数十または数百テラバイトかかることがあります。

データ量はBigdataを定義する重要な要素の1つに過ぎません。 Varietyのデータと、データが増加するvelocityは、Bigdataとなるデータセットを定義する上での他の2つの主要な要素です。

Varietyとは、従来のリレーショナルデータベースの範囲外にある方法で分析および処理する必要のある多くの異なるデータおよびファイルタイプを意味します。この種類の例には、サウンドファイルやムービーファイル、画像、ドキュメント、地理空間データ、Webログ、テキスト文字列などがあります。

Velocityは、データの変化速度と、それが有意な値を生成するためにどのくらい速く処理されなければならないかについてです。伝統的な技術は、高速データの保存と使用に特に適していません。新しいアプローチが必要です。問題のデータが作成され、非常に素早く集計され、パターンや問題を発見するために迅速に使用されなければならない場合は、速度が速く、Bigdata問題が発生する可能性が高くなります。

「費用対効果の高い」ソリューションをお探しの場合は、amazon's EMRをご利用ください。

+0

Hummm Amarありがとうございます。基本的にはすべて主観的です。 –

+0

ええ、かなり。 – Amar

+0

そして、はい、すでにEMRを使用しています。しかし、私たちが現在行っている他にもたくさんのことがあり、EMRに移行しようとしており、すべての要因を考慮に入れた洞察を求めていました。 –

12

「ビッグデータ」は、やや曖昧な言葉であり、技術的な意思決定よりもマーケティング目的で多く使用されています。ある人が「大きなデータ」と呼ぶものは、1つのシステム上で日常的な操作であると考えるかもしれません。

私の経験則では、単一のシステム上でメインメモリに収まらないデータセットがある場合、大きなデータが始まるということです。ワーキングセットは、特定の時点で積極的に取り組んでいるデータです。例えば、10TBのデータを保存するファイルシステムを持っていて、それを使って編集用のビデオを保存しているのであれば、編集者はいつでも数百ギガしか必要としません。彼らは一般にランダムアクセスを必要としないディスクのデータをストリーミングしています。しかし、定期的に変更されている完全な10 TBのデータセットに対してデータベースクエリを実行しようとしている場合、そのデータをディスクから提供したくない場合。 「ビッグデータ」になり始める

大体の目安として、市販のDellサーバーを2 TBのRAM用に構成することができます。しかし、大量のRAMを1つのシステムにインストールするには、かなりのプレミアムを支払う必要があります。 1台のサーバーに512 GBのRAMを搭載する方がはるかに手ごろなので、2 TBの1台のマシンに比べて512 GBのRAMを搭載した4台のマシンを使用する方がコスト効率が高くなります。だから、おそらく512ギガバイト以上のワーキングセットデータ(日々の計算にアクセスするために必要なデータ)は、「ビッグデータ」と見なすことができます。

伝統的なデータベースとは対照的に「ビッグデータ」システム用のソフトウェアを開発するための追加コストを考えると、2TBシステムに移行する方がコスト効率が良いかもしれません。いくつかのシステムでは、必要に応じて、512 GB〜2 TBのデータのどこかで、「ビッグデータ」システムに移行する必要があります。

私は技術的な判断を下すために "ビッグデータ"という用語を使用しません。代わりに、あなたの実際のニーズを定式化し、今それらのニーズに対応するために必要な技術の種類を決定してください。成長は少し考えてください。しかし、システムの容量はまだ増えています。計画を過ぎようとしないでください。多くの「ビッグデータ」システムは使いにくく柔軟性がないため、実際にデータや計算を数十〜数百のシステムに普及させる必要がない場合は、価値があるよりもトラブルになる可能性があります。

+0

はい、それを得ました。ありがとうございました。 –

関連する問題