DataFrame
列の統計情報(ジニ係数)を検索しようとしていますが、特定の列のすべての値を渡す必要があります統計量(ジニ係数)を計算します。関数に値のリストとして効率的に大きなDataFrame列を送信する方法
ここで、統計関数は「値のリスト」を想定して整数を返します。 DataFrame列から値の一覧を収集するために、以下の2つのアプローチを試しました。
アプローチ1:
- は、データフレームから列を選択します。
- RDDに隠します。
- 各値を(1、値)
- にマッピングし、すべての値を集計します。
- 集計値を統計関数に送信して統計を計算します。
アプローチ2:
- DATAFRAMEから列を選択します。
- RDDに隠します。
- 集計アクションを実行して値を集計します。
- 集計値を統計関数に送信して統計を計算します。
しかし、どちらのアプローチも非常に遅いようです。
提案や他の方法で効率的に共有してください。
よろしく、 Neeraj