4
をpyspark:GroupByKeyと値のリストを作成するには、だから私はのように見える火花データフレーム持っているSQLデータフレーム
a | b | c
5 | 2 | 1
5 | 4 | 3
2 | 4 | 2
2 | 3 | 7
そして、私は列によってグループにをしたいが、列Bから値のリストを作成し、 cについて忘れる出力データフレームは次のようになります。
a | b_list
5 | (2,4)
2 | (4,3)
pyspark sqlデータフレームでこれを行う方法はありますか?
ありがとうございました! :)
ちょうど私が必要なもの!ありがとう。より良いものになるためにいくつかのリソースを提案できますか? – user2253546
私はリソースに関してあなたの質問を得ていませんでした。問題を解決して他の人に役立つように答えを受け入れてください。ありがとう。 – abaghel
@ user2253546あなたはdocを読むことができます。ここhttps://spark.apache.org/docs/1.6.2/api/java/org/apache/spark/sql/functions.html、多くの役に立つSQL関数 –