0
私の最初のRDDは、各ブロックが行自体のリストであるブロックのリストです。だから、[infos_var1、infos_var2]PySpark:配列の最初の項目によるマッピング方法
だと、各ブロックは
VAR_NAME、var_value1、var_value2、var_value3
で、元のデータは次のようになります。
[[u'::852-YF-007\t', u'2016-05-10 00:00:00\t0', u'2016-05-09 23:59:00\t0', u'2016-05-09 23:42:00\t0'], [u'::852-YF-008\t', u'2016-05-10 00:00:00\t0', u'2016-05-09 23:59:00\t0', u'2016-05-09 23:42:00\t0']]
私の質問は、キーとして変数名(852-YF-007と852-YF-008)を抽出し、タイムスタンプ付きの行を値として抽出するためにマップ関数を使用する方法です(ここでは、
私のRDDでマップを使用する方法を教えてもらえますか?
df.map(lambda (k, v): (v[0], v[0-vEND]))
PS:私は私の最初のRDDを作成する方法についてのオリジナルのポストはfound hereすることができ、私はこのような何かを考えていました。
にこのような何かをスライスするために調べ、
i[1:]
部分についてを(私は手元にあるpysparkはありません)? 'df.map(lambda i:(i [0]、i [1:]))' – ccheneson
答えとして投稿し、私はそれを受け入れます。 – Matthias