0
私は、csvからロードされたデータフレームを持っています.0.2 GBのカラムは、21035のカラム と約200000のローを含んでいます。スパークデータフレームタスクのスピードアップ?
私は、データフレーム上でこの機能を実行しました:
cnts = (df.select([countDistinct(c).alias(c) for c in df.columns]).first().asDict())
私のシステムは32ギガバイトのRAMを持って、このタスクは、遅すぎるの周り13.5時間作業時間を示し、これは正常ですか? または、私は間違ったことをしており、少しスピードアップできますか? これはPOC用のWindowsサーバー上でのスパークのスタンドアロンインストールです。
リクエストを行う前にdf.persist()を使用しましたか?あなたのマシンにはどれくらいのコアがありますか? 8?パーティションの数を増やし、圧縮をアクティブにすることができます。 – GwydionFR
はい、私はして、それは8つのコアを示しています。どのように圧縮を有効にする? –
spark.rdd.compress \tを参照してください。ああ、分散ファイルシステムや標準ファイルシステム(ext4、NTFSなど)を使用していますか? – GwydionFR