PySpark：配列の最初の項目によるマッピング方法

私の最初のRDDは、各ブロックが行自体のリストであるブロックのリストです。だから、[infos_var1、infos_var2]PySpark：配列の最初の項目によるマッピング方法

だと、各ブロックは

VAR_NAME、var_value1、var_value2、var_value3

で、元のデータは次のようになります。
[[u'::852-YF-007\t', 
    u'2016-05-10 00:00:00\t0', 
    u'2016-05-09 23:59:00\t0', 
    u'2016-05-09 23:42:00\t0'], 
[u'::852-YF-008\t', 
    u'2016-05-10 00:00:00\t0', 
    u'2016-05-09 23:59:00\t0', 
    u'2016-05-09 23:42:00\t0']] 
私の質問は、キーとして変数名（852-YF-007と852-YF-008）を抽出し、タイムスタンプ付きの行を値として抽出するためにマップ関数を使用する方法です（ここでは、

私のRDDでマップを使用する方法を教えてもらえますか？
df.map(lambda (k, v): (v[0], v[0-vEND])) 
PS：私は私の最初のRDDを作成する方法についてのオリジナルのポストはfound hereすることができ、私はこのような何かを考えていました。

出典

2016-06-30 Matthias

にこのような何かをスライスするために調べ、i[1:]部分について

df.map(lambda i : (i[0], i[1:]))

を（私は手元にあるpysparkはありません）？ 'df.map（lambda i：（i [0]、i [1：]））' – ccheneson

答えとして投稿し、私はそれを受け入れます。 – Matthias

何を持っていることはアイテムのリストのリストであり、このお試しください

をタプルない：here

出典

2016-06-30 12:11:04 ccheneson

PySpark：配列の最初の項目によるマッピング方法

答えて

関連する問題