spark-sql/pysparkのunpivot

spark-sql/pysparkのテーブルをunpivotしたい問題文があります。私はドキュメンテーションを見てきましたが、私はピボットだけのサポートがあることが分かりましたが、これまでのピボットをサポートしていませんでした。これを達成する方法はありますか？spark-sql/pysparkのunpivot

私は以下の使用pysparkでこれを旋回したときに私の最初の表は、この

のように見てみましょう、私は、出力

としてこれを取得するコマンド

df.groupBy("A").pivot("B").sum("C")

を述べました

今度はピボットテーブルをピボット解除したい。一般に、この操作は元のテーブルをどのように旋回させたかに基づいて元のテーブルを生成することができます。

現在、Spark-sqlはunpivotのサポートをデフォルトで提供していません。私はこれを達成する方法はありますか？

おかげマニッシュ

出典

2017-02-26 Manish Mehra

必要な結果を含むデータサンプルを追加してください。 –

？ ........................... –

@DuduMarkovitzが今追加されました –

あなたはScalaでは、たとえば、スタック機能で構築を使用することができます。

scala> val df = Seq(("G",Some(4),2,None),("H",None,4,Some(5))).toDF("A","X","Y", "Z") 
df: org.apache.spark.sql.DataFrame = [A: string, X: int ... 2 more fields] 

scala> df.show 
+---+----+---+----+ 
| A| X| Y| Z| 
+---+----+---+----+ 
| G| 4| 2|null| 
| H|null| 4| 5| 
+---+----+---+----+ 


scala> df.select($"A", expr("stack(3, 'X', X, 'Y', Y, 'Z', Z) as (B, C)")).where("C is not null").show 
+---+---+---+ 
| A| B| C| 
+---+---+---+ 
| G| X| 4| 
| G| Y| 2| 
| H| Y| 4| 
| H| Z| 5| 
+---+---+---+

またはpyspark中：

In [1]: df = spark.createDataFrame([("G",4,2,None),("H",None,4,5)],list("AXYZ")) 

In [2]: df.show() 
+---+----+---+----+ 
| A| X| Y| Z| 
+---+----+---+----+ 
| G| 4| 2|null| 
| H|null| 4| 5| 
+---+----+---+----+ 

In [3]: df.selectExpr("A", "stack(3, 'X', X, 'Y', Y, 'Z', Z) as (B, C)").where("C is not null").show() 
+---+---+---+ 
| A| B| C| 
+---+---+---+ 
| G| X| 4| 
| G| Y| 2| 
| H| Y| 4| 
| H| Z| 5| 
+---+---+---+

出典

2017-03-10 17:07:42

上記の答えに相当するpysparkコードを入力してください。 – Afaq

ありがとうございます。 :) – Afaq

私はここに与えられたpysparkコードを使ってみましたが、その性能は悪いと思われます。ユニオンを使用してすべてのクエリをピボット・ダウンすると、このコードに比べてパフォーマンスが向上しました。パフォーマンスを改善するためにここで行うことができる調整がありますか？ – Afaq

spark-sql/pysparkのunpivot

答えて

関連する問題