私はSparkでDataFramesを操作するとき、DataFrameの特定の列の値だけを編集する必要があることがあります。たとえば。私のデータフレームにcount
フィールドがあり、count
のすべての値に1
を追加したい場合は、DataFramesの機能を使用してジョブを実行するカスタムudfを書くか、map
結果のRDDから別のDataFrameを抽出します。マップとudfの相違点
私が知りたいのは、udfが実際にどのようにフードの下で動作するかです。この場合、map/udfを使って比較してください。パフォーマンスの違いは何ですか?
ありがとうございます!
http://stackoverflow.com/q/38860808/1560062 – zero323