私の質問は、PySpark reduceByKey on multiple valuesに似ていますが、何らかの形で重要な違いがあります。私はPySparkを初めて使っているので、明らかに何かを見逃しています。ネストされたタプルのPyspark reduceByKey
私は次のような構造でRDDを持っている:私が欲しいもの
(K0, ((k01,v01), (k02,v02), ...))
....
(Kn, ((kn1,vn1), (kn2,vn2), ...))
出力は
(K0, v01+v02+...)
...
(Kn, vn1+vn2+...)
のようなものであるように、これはreduceByKey
を使用するのに最適なケースのように思えるし、最初に思いました何かのようなもの
rdd.reduceByKey(lambda x,y: x[1]+y[1])
これは、私が始めたRDDと。入れ子にされたタプルがあるため、インデックス作成に問題があると思われますが、可能なすべてのインデックスの組み合わせを試しました。最初のRDDを元に戻し続けます。
ネストされたタプルでは機能しない理由があるのでしょうか、何か間違っていますか?
今の私には明らかであること
v01
、v02
は、...vm
は、単純な数値であると仮定します。はい、キーはユニークなので、mapValuesのアプローチは必要なものです。どうもありがとうございました。 –