2016-05-14 16 views
0

私のデータによると、長い行に文字列を追加しますMRの仕事は、キー

ABC: (value x, value y), (value o, value p) 
CDE: (value n, value m), (value f, value g) 
GHI: (value h, value i) 

私の理解では、マッパーで、私はへの入力を分割しなければならないことである。

ABC|value x|value y 
CDE|value n|value m 
GHI|value h|value i 
ABC|value o|value p 
CDE|value f|value g 

私はこの出力を必要としますキーと値のペアは次のようになります:

"value x|value y"    ABC 
"value n|value m"    CDE 

しかし、私はレデューサーに固執しています - どのようなアイデアですか?

答えて

0

OK、わかりました。

マッパーは、実際にこの生成する必要があります:減速で、その後、

ABC    "value x|value y"    
CDE    "value n|value m"    

を我々はキーif key == next key後に値を追加する簡単なロジックを使用することができます - - Hadoopのデフォルトの並べ替えのキーであることを知ります。