2012-05-01 13 views
0

私はhadoopの初心者です。しかし、私はこの興味深い観察をしました。スタンドアロン動作と擬似分散動作で同じ例を実行してHadoopのドキュメントのhadoop擬似分散操作とスタンドアロン操作のパフォーマンス比較

使用the example

は、スタンドアロンの一方が1分未満を要したが、疑似分散操作は、3分以上かかりました。これは大きな違いです。私は分散モードで余分なネットワークとスケジューリングのオーバーヘッドがあることを理解できました。しかし、違いはあまりにも大きいようです。この例は非常に単純なので、実際の比較ではないかもしれません。

私の質問は、現実世界の仕事のスタンドアロンモードと分散モードの間にどの程度の違いがありましたか?

+1

擬似分散モードまたはスタンドアロンモードは、本番環境では使用されませんので、この質問に有益な回答を得るのは難しいでしょう。 –

答えて

1

これは、合理的に異なるシナリオです。スタンドアロンモードでは、適切な1ノードのHadoopクラスタを起動することはありません。すべてがローカルで、インラインで、JVMで発生します。データをディスクに書き込む必要はありません。擬似分散操作は、1つのローカルノードの最小の「実際の」Hadoopインストールです。ローカルのHDFSインスタンスにデータを読み書きしたり、別のJVMなどを生成したりする必要があります。そのすべてがオーバーヘッドを増やします。多分、オーバーヘッドは実際に数分です。これは私には全く分かりやすいようです。

0

のHadoopフレームワークは、ビッグデータを処理するためのものです。.. Hadoopのため、小さなファイルは非常に迅速にHadoopに比べて、従来のファイルシステムで処理になるだろう、ので

だからデータのサイズは、多くのを重要mapreduceフレームワークには内部作業(データファイルのチャンクを作成してデータノードに送信し、データノードからのアクセスを再度処理する)が必要です。小さなファイルの場合、ハーフフレームの作業は適切ではありません。

スタンドアロンおよび擬似分散モードになると、スタンドアロンおよび擬似分散モードの実際の違いを考慮して、ファイルのサイズを考慮する必要があります。

スタンドアロンモードでは、HDFSの概念はありません。データはhadoop分散ファイルシステムにコピーされません(明らかに時間が節約されます)。疑似分散モードでは、必要なデータとともにコピーする必要があるhdfs処理される。

従来のファイル処理を使用した方がサイズが小さく、ファイルサイズが大きくて巨大になる場合は、hadoopフレームワークで処理時間が向上します。 これが役立ちますように!

+0

これは深刻な編集が必要です。段落に分割し、必要に応じて書式を使用します。 – David

関連する問題