sparkデータセットのグループ化方法

Spark Dataset（Spark 1.6.1 Version）を使用しています。以下は私が複数の列にgroup by句を実行したかった私のコード今sparkデータセットのグループ化方法

object App { 

val conf = new SparkConf() 
.setMaster("local") 
.setAppName("SparkETL") 

val sc = new SparkContext(conf) 
sc.setLogLevel("ERROR") 
val sqlContext = new SQLContext(sc); 
import sqlContext.implicits._ 

} 

override def readDataTable(tableName:String):DataFrame={ 
val dataFrame= App.sqlContext.read.jdbc(JDBC_URL, tableName, JDBC_PROP); 
return dataFrame; 
} 


case class Student(stud_id , sname , saddress) 
case class Student(classid, stud_id, name) 


var tbl_student = JobSqlDAO.readDataTable("tbl_student").filter("stud_id = '" + studId + "'").as[Student].as("tbl_student") 

var tbl_class_student = JobSqlDAO.readDataTable("tbl_class_student").as[StudentClass].as("tbl_class_student") 


var result = tbl_class_student.joinWith(tbl_student, $"tbl_student.stud_id" === $"tbl_class_student.stud_id").as("ff")

のですか？どうすればいいですか？ result.groupBy(_._1._1.created_at)このようにすればいいですか？もしそうなら、私は複数の列でそれを行う方法によってグループとして結果を見ることができませんか？

出典

2016-06-14 Swapnil Shirke

あなたの要件を正しく理解している場合は、ここではreduceByKeyの機能をPairRDDFunctionsクラスに使用することをお勧めします。

機能の署名はであり、一連のキーと値のペアを使用することを意味します。

私はワークフローを説明してみましょう：あなたはで動作するようにMANTセットを取得

を（あなたのコードで：result）RDD map機能付き
あなたはタプルは2を含む結果セットを分割しました（例：result.map(row => ((row.key1, row.key2), (row.value1, row.value2))）
RDD [（K、V）]ここで、Kはキーフィールドタプルのタイプであり、Vはタイプです。値フィールドのタプル

(agg: (Int, Int), val: (Int, Int)) => (agg._1 + val._1, agg._2 + val._2)

は注意してください：あなたは直接集計値タイプ(V,V) => Vの機能渡すことでreduceByKeyを使用することができますが、集計関数から同じ値の型を返す必要が

を
groupByの場合も同じ理由が考えられます。 e RDDをペアRDD[K,V]に開始するが、集計関数を持たない。これは、次の計算のためにseqに値を格納するだけなので、
集計の開始値が必要な場合foldByKey機能

出典

2016-06-27 13:19:08

sparkデータセットのグループ化方法

答えて

関連する問題