IDの列である列を持つデータフレーム(azureの複数のブロブからロードすることによって作成されます)があります。Pyspark Dataframeは、列から要素のリストとして文字列を持つユニークな要素を取得します。
resp = [q, r, s]
任意のアイデアどのようにそこに着くために: - : 今、私はこの全体の列からユニークIDのリストたい。ここ
df -
| col1 | col2 | col3 |
| "a" | "b" |"[q,r]"|
| "c" | "f" |"[s,r]"|
私の期待応答がされる。ここ
を例です。 ?
私の現在のアプローチは、col3の文字列をPythonリストに変換して、何とかそれらをフラットアウトすることです。
これまでのところ私はそうすることができません。私はpysparkでユーザ定義の関数を使ってみましたが、リストではなく文字列を返します。
フラットマップは、データフレーム上にないRDDでのみ動作し、画像がありません。
多分、RDDからデータフレームへの変換中にこれを指定できる方法があります。しかし、それをどうやって行うのか分からない。