hadoop擬似分散操作とスタンドアロン操作のパフォーマンス比較

私はhadoopの初心者です。しかし、私はこの興味深い観察をしました。スタンドアロン動作と擬似分散動作で同じ例を実行してHadoopのドキュメントのhadoop擬似分散操作とスタンドアロン操作のパフォーマンス比較

は、スタンドアロンの一方が1分未満を要したが、疑似分散操作は、3分以上かかりました。これは大きな違いです。私は分散モードで余分なネットワークとスケジューリングのオーバーヘッドがあることを理解できました。しかし、違いはあまりにも大きいようです。この例は非常に単純なので、実際の比較ではないかもしれません。

私の質問は、現実世界の仕事のスタンドアロンモードと分散モードの間にどの程度の違いがありましたか？

出典

2012-05-01 user1368373

擬似分散モードまたはスタンドアロンモードは、本番環境では使用されませんので、この質問に有益な回答を得るのは難しいでしょう。 –

これは、合理的に異なるシナリオです。スタンドアロンモードでは、適切な1ノードのHadoopクラスタを起動することはありません。すべてがローカルで、インラインで、JVMで発生します。データをディスクに書き込む必要はありません。擬似分散操作は、1つのローカルノードの最小の「実際の」Hadoopインストールです。ローカルのHDFSインスタンスにデータを読み書きしたり、別のJVMなどを生成したりする必要があります。そのすべてがオーバーヘッドを増やします。多分、オーバーヘッドは実際に数分です。これは私には全く分かりやすいようです。

出典

2012-05-01 22:35:13

のHadoopフレームワークは、ビッグデータを処理するためのものです。.. Hadoopのため、小さなファイルは非常に迅速にHadoopに比べて、従来のファイルシステムで処理になるだろう、ので

だからデータのサイズは、多くのを重要mapreduceフレームワークには内部作業（データファイルのチャンクを作成してデータノードに送信し、データノードからのアクセスを再度処理する）が必要です。小さなファイルの場合、ハーフフレームの作業は適切ではありません。

スタンドアロンおよび擬似分散モードになると、スタンドアロンおよび擬似分散モードの実際の違いを考慮して、ファイルのサイズを考慮する必要があります。

スタンドアロンモードでは、HDFSの概念はありません。データはhadoop分散ファイルシステムにコピーされません（明らかに時間が節約されます）。疑似分散モードでは、必要なデータとともにコピーする必要があるhdfs処理される。

従来のファイル処理を使用した方がサイズが小さく、ファイルサイズが大きくて巨大になる場合は、hadoopフレームワークで処理時間が向上します。 これが役立ちますように！

出典

2017-04-20 11:29:26

これは深刻な編集が必要です。段落に分割し、必要に応じて書式を使用します。 – David

hadoop擬似分散操作とスタンドアロン操作のパフォーマンス比較

答えて

関連する問題