私はSpark Environment and Developmentでちょっと新しくなりました。Pythonでスパークするタプルを使って作業する - 2つのRDDを結合した後に2つのタプルをマージするには
は私は建具を経て合併した2 RDDSを持って、その建具の結果は以下の通りです:あなたは、私は2つのタプルと鍵を持って表示された場合
(u'10611', ((u'Laura', u'Mcgee'), (u'66821', u'COMPLETE')))
(u'4026', ((u'Mary', u'Smith'), (u'3237', u'COMPLETE')))
(u'4026', ((u'Mary', u'Smith'), (u'4847', u'CLOSED')))
が、私は両方のタプルをマージしたいと以下のように、キーと1組として、それを残す:
(u'10611', (u'Laura', u'Mcgee', u'66821', u'COMPLETE'))
(u'4026', (u'Mary', u'Smith', u'3237', u'COMPLETE'))
(u'4026', (u'Mary', u'Smith', u'4847', u'CLOSED'))
また、どのように私はタブで区切らsaveAsTextFile、前にこれをフォーマットすることができます。例
10611 Laura Mcgee 66821 COMPLETE
4026 Mary Smith 3237 COMPLETE
4026 Mary Smith 4847 CLOSED
私はこのような何かを持っているが、タプルとそれにアクセスする方法がわからない:あなたのデータを想定し
.map(lambda x: "%s\t%s\t%s\t%s" %(x[0], x[1], x[2], x[3]))
どのように私はpysparkでそれを行うことができますか?私はPythonとSparkで新しいです。 –
これは働いた: 'merge = cust_j_orders.map(ラムダx:(x [0]、(x [1] [0] + x [1] [1] ))) ') –
正直言って、私は本当にPySparkに精通していません。私はそれがPythonのスーパーセットだと仮定して、Python構文がうまくいくようにしました。 –