2011-07-04 12 views
0

pigスクリプト/ map-reduceジョブの実行に関する質問はほとんどありません。Apache PIGに関する質問

  1. 私は豚が、それは本当に仕事を減らす/マップの実行を開始する前、論理的、物理的および実行はを計画して作成することを知っています。私はコマンドを使用して論理的/物理的な計画を見ることができます説明<エイリアス名>;しかし、どのように私は実行計画(私は異なるマップ/計画タスクを計画リスト)を表示するのですか?ブタの執行の過程で、私は多くの仕事(地図/縮小ペア)が作成されていることがわかります。これらの仕事のそれぞれが何を解決するのかを理解したい。

  2. スパットとは理解しづらいため、私が作成した計画を理解するための明確なガイドがありますか?

  3. 入力ファイルブロックの数を変更することでマップジョブの数を変更できます。削減ジョブの数も管理できますか?どのように減速機の数を設定しますか?

  4. マッパー/レデューサーノードのデフォルトのヒープメモリーサイズはどれくらいですか?これらを反映するジョブパラメータはどれですか?ヒープメモリを-Xmx 1024mオプションで変更することはできますか?このようにヒープメモリを設定すると、私の仕事は失敗しました。 - どの値を供給できるかにいくつかの制限がありますか?

ありがとうございます!

答えて

2
  1. 説明によって異なる計画が生成されます。ファイルの代わりにディレクトリパスを指定すると、 'explain'から3つのプランをすべて取得できます。

  2. いいえ、わかりません。

  3. set default_parallel 10それはあなたのHadoopの設定でなければなりません10.

  4. に減らすジョブの数を設定します。

+0

それはまた、あなたが数を設定することができていることは注目に値しますステートメント自体の特定の演算子のための減速材の。例えば。 'B =グループA by tパラレル18;' – HXCaine

2
  1. (地図の面で雇用を減らす)ALIAS-NAMEは、物理的な計画を説明し、 "(豚のコマンドを)説明"

  2. エイリアスはMRの仕事で一緒にグループ化されます。計画段階では、すべてのエイリアスが特定のMRにグループ化されていることがわかります

  3. 減算器の数を制御するには、結合を書き込むときに "USING PARALLEL desired_no"を使用できます。groupbyまたは "set default_parallel desired no" atブタスクリプトの開始。

  4. これは、1匹の豚がどこにいるかによって異なります。 もしそのMRv1:セットmapred.java.opts -Xmx mrv2で :設定mapred.map.size、設定mapred.map.java.opts -Xmx