2016-06-30 7 views
0

私の最初のRDDは、各ブロックが行自体のリストであるブロックのリストです。だから、[infos_var1、infos_var2]PySpark:配列の最初の項目によるマッピング方法

だと、各ブロックは

VAR_NAME、var_value1、var_value2、var_value3

で、元のデータは次のようになります。

[[u'::852-YF-007\t', 
    u'2016-05-10 00:00:00\t0', 
    u'2016-05-09 23:59:00\t0', 
    u'2016-05-09 23:42:00\t0'], 
[u'::852-YF-008\t', 
    u'2016-05-10 00:00:00\t0', 
    u'2016-05-09 23:59:00\t0', 
    u'2016-05-09 23:42:00\t0']] 

私の質問は、キーとして変数名(852-YF-007と852-YF-008)を抽出し、タイムスタンプ付きの行を値として抽出するためにマップ関数を使用する方法です(ここでは、

私のRDDでマップを使用する方法を教えてもらえますか?

df.map(lambda (k, v): (v[0], v[0-vEND])) 

PS:私は私の最初のRDDを作成する方法についてのオリジナルのポストはfound hereすることができ、私はこのような何かを考えていました。

+2

にこのような何かをスライスするために調べ、i[1:]部分について

df.map(lambda i : (i[0], i[1:])) 

を(私は手元にあるpysparkはありません)? 'df.map(lambda i:(i [0]、i [1:]))' – ccheneson

+0

答えとして投稿し、私はそれを受け入れます。 – Matthias

答えて

1

何を持っていることはアイテムのリストのリストであり、このお試しください

をタプルない:here

関連する問題