pysparkデータフレーム列の処理方法

ラベル/ヘッダーのない4k列以上のpyspark dfがあります。列の値に基づいて、各列に対して特定の操作を適用する必要があります。pysparkデータフレーム列の処理方法

私はパンダを使って同じことをしましたが、私はパンダを使いたくないので、スパークデータフレームに列方向の変換を直接適用したいと思います。 dfがlabelを持たない> 4k個のカラムを持つ場合、どのようにカラムワイズ変換を適用できますか。また、特定のdfカラムインデックスに変換を適用したくありません。

出典

2017-02-08 occasional visitor

Sparkのドキュメントによると、データフレームにはあなたの言ったこととは異なり、ヘッダーが含まれています。これはデータベーステーブルとよく似ています。いずれの場合においても

、シンプルforループはトリックを行う必要があります。

for column in spark_dataframe.columns: 
    (do whatever you want to do with your columns)

出典

2017-02-08 08:50:27

OKは、私は、各列をループ私は列の値に正規表現のチェックを行い、それが一致した場合、私はそれを更新したい場合に想定。私はdf.iloc [:, i] = df.iloc [:, i] .apply（lambda x：x.split（）[0]）のようなことをしています。 –

@occasionalvisitorは以前にilocを使ったことはありませんでした。このリンク[リンク]を確認してください（http://stackoverflow.com/questions/37487170/spark-dataframe-equivalent-to-pandas-dataframe-iloc-method） –

pysparkデータフレーム列の処理方法

答えて

関連する問題