2012-03-30 11 views
3

私はしばらくの間ElasticMapReduceを使用しました。非常に便利ですが、Hadoopクラスタは一時的にしか利用できないため、HBaseを実行することはできません(私はHBase and Hadoopに多少関連する質問をしました)。EC2対ElasticMapReduce/S3のHadoop

したがって、EC2マシンのセットにHadoopをインストールしてみたいと思います。 HadoopにはEC2関連のディレクトリsrc/contrib/ec2があります。 Hadoopクラスタは単にコマンドを入力するだけで起動でき、ジョブなどを実行するためにマスターノードにログインすることができます。これを試す前に、私はこれを使ってきたpplからの問題を知りたい。ありがとう!

+0

良い質問ですが、何か答えを見るのも大好きです。 Elastic MapReduceはストレージプラットフォームとしてS3を使用していることがわかっていますので、通常はEC2のHadoopよりも効率が悪いです。なぜなら、HDFS(s3は別のシステムで動作します)のようにデータローカリティの最適化を使用できないからです。 – Christophe

答えて

0

確かにamazonでhadoopを使用する2つのオプションがあります - あなた自身のクラスタまたはusint EMRのプロビジョニング。この決定とは正反対に、HDFSまたはS3をファイルシステムとして使用することができます。 短編小説ではありませんが、私はこれらすべての選択のいくつかの長所/短所をハイライトしようとします。
1日に1つまたは複数のジョブを実行する必要があり、常にハープ・クラスタを必要としない場合は、EMRを使用できます。この場合、データをs3に入れ、プロセスを完全にスクリプト化することができます。主な欠点 - 第三者のライブラリなどをカスタマイズするのは容易ではありません。この場合、クラスタをインストールする時間も節約できます。 hadoopを微調整したい場合は、独自のクラスタをインストールする必要があります。
データが既にs3に入っている場合、または処理後にデータを保存する必要がある場合は、s3を選択するとよいでしょう。同時に、HDFSを使用するとパフォーマンスが低下する可能性があります。アマゾンのインスタンスにはローカルストレージがほとんどないと言わなければなりません。それは本当に高価なので、このストレージを保存するだけでクラスタを稼働させておきましょう。
実際にすべてのグループでHDFSが必要な場合は、実際に自分のハードウェア上に独自のクラスタが必要だと言います。 Amazonで作業しているときは、ファイルシステムとしてS3を使用するのが最も実用的です。

関連する問題