我々は2つのデータフレーム(説明のためのScalaの構文に注意してください)、私たちはこの新しいデータフレームを得るように、各フレームから1列を合計する方法異なるデータフレームからのスパーク和の列に
val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x")
val df2 = sc.parallelize(2 to 4).map(i => (i,i*100)).toDF("id","y")
、
+---+---------+
| id| x_plus_y|
+---+---------+
| 1| 10|
| 2| 220|
| 3| 330|
| 4| 440|
+---+---------+
を持っています
注 これを試みたが、それは最初の行を無効、
sqlContext.sql("select df1.id, x+y as x_plus_y from df1 left join df2 on df1.id=df2.id").show
+---+--------+
| id|x_plus_y|
+---+--------+
| 1| null|
| 2| 220|
| 3| 330|
| 4| 440|
+---+--------+