AWS EMRを使用してマップ削減ジョブを実行しています。私の入力セットには、それぞれ約15KBの1百万のファイルが含まれています。入力ファイルは非常に小さいので、これは膨大な数のマッパーにつながります。したがって、s3のブロックサイズを20KBに変更し、5つのr3.2xlargeインスタンスを使用しましたが、実行中の同時実行タスクの数はまだ30です。ブロックサイズを縮小した後でも、 、各マッパーによって取られたメモリはまだ同じですか?MapReduce:並行マッパータスクの数を増やす
どのように各マッパーのメモリ使用を制限したり、並行マッパータスクの数を増やすことができますか?現在の予想完了時間は100時間です。これらのファイルを結合して400MBのファイルのような大きなファイルの数を減らし、処理時間を増やしますか?