:Pyspark RDDでユニークなタプルを見つけ、私はのようにpysparkにショッピングプラットフォーム上のユーザアクティビティデータのRDDを持って
のuser_idを| product_id | イベント(商品を見る、購入した、カートに追加したなど)
同じもの(user_id、product_id)タプルには複数のイベントタイプがあります。そのような出来事をすべて同じ列に集めたいと思います。
例:
╔═════════════════════════════════════════════════╗
║ user_id | product_id | Event ║
╠═════════════════════════════════════════════════╣
║ 1 1 viewed ║
║ 1 1 purchased ║
║ 2 1 added ║
║ 2 2 viewed ║
║ 2 2 added ║
╚═════════════════════════════════════════════════╝
私がしたい:Scalaでは
╔════════════════════════════════════════════════╗
║ user_id | product_id | Event ║
╠════════════════════════════════════════════════╣
║ 1 1 {viewed, purchased} ║
║ 2 1 {added} ║
║ 2 2 {viewed, added} ║
╚════════════════════════════════════════════════╝
あなたは組み込みの 'map'と' groupByKey'機能を使用してに見たことがありますか? – jtmingus