2017-02-08 21 views
0

ラベル/ヘッダーのない4k列以上のpyspark dfがあります。列の値に基づいて、各列に対して特定の操作を適用する必要があります。pysparkデータフレーム列の処理方法

私はパンダを使って同じことをしましたが、私はパンダを使いたくないので、スパークデータフレームに列方向の変換を直接適用したいと思います。 dfがlabelを持たない> 4k個のカラムを持つ場合、どのようにカラムワイズ変換を適用できますか。また、特定のdfカラムインデックスに変換を適用したくありません。

答えて

0

Sparkのドキュメントによると、データフレームにはあなたの言ったこととは異なり、ヘッダーが含まれています。これはデータベーステーブルとよく似ています。いずれの場合においても

、シンプルforループはトリックを行う必要があります。

for column in spark_dataframe.columns: 
    (do whatever you want to do with your columns) 
+0

OKは、私は、各列をループ私は列の値に正規表現のチェックを行い、それが一致した場合、私はそれを更新したい場合に想定。私はdf.iloc [:, i] = df.iloc [:, i] .apply(lambda x:x.split()[0])のようなことをしています。 –

+0

@occasionalvisitorは以前にilocを使ったことはありませんでした。このリンク[リンク]を確認してください(http://stackoverflow.com/questions/37487170/spark-dataframe-equivalent-to-pandas-dataframe-iloc-method) –

関連する問題