0
ラベル/ヘッダーのない4k列以上のpyspark dfがあります。列の値に基づいて、各列に対して特定の操作を適用する必要があります。pysparkデータフレーム列の処理方法
私はパンダを使って同じことをしましたが、私はパンダを使いたくないので、スパークデータフレームに列方向の変換を直接適用したいと思います。 dfがlabelを持たない> 4k個のカラムを持つ場合、どのようにカラムワイズ変換を適用できますか。また、特定のdfカラムインデックスに変換を適用したくありません。
OKは、私は、各列をループ私は列の値に正規表現のチェックを行い、それが一致した場合、私はそれを更新したい場合に想定。私はdf.iloc [:, i] = df.iloc [:, i] .apply(lambda x:x.split()[0])のようなことをしています。 –
@occasionalvisitorは以前にilocを使ったことはありませんでした。このリンク[リンク]を確認してください(http://stackoverflow.com/questions/37487170/spark-dataframe-equivalent-to-pandas-dataframe-iloc-method) –