私はより多くのパンダの方法で、次の関数を書くことができますどのようにパンダのデータフレーム

の各列に関数を適用：助けを私はより多くのパンダの方法で、次の関数を書くことができますどのようにパンダのデータフレーム

 def calculate_df_columns_mean(self, df): 
     means = {} 
     for column in df.columns.columns.tolist(): 
      cleaned_data = self.remove_outliers(df[column].tolist()) 
      means[column] = np.mean(cleaned_data) 
     return means

感謝を。

出典

2016-08-09 Night Walker

「remove_outliers do？ – MaxU

質問なぜ列に対して反復処理を行い、次にこれを行うのですか？ 'cleaned_data = self.remove_outliers（df [column] .tolist（））'？これは、すべての列のすべての列に対して外れ値を繰り返し削除しているようです。 – EdChum

私はクリーンなデータの平均を計算したいと思います。 –

列の反復処理が不要であるように私には思える：

def calculate_df_columns_mean(self, df): 
    cleaned_data = self.remove_outliers(df[column].tolist()) 
    return cleaned_data.mean()

上記remove_outliersはまだDF

を返すと仮定して十分なはずです編集

次のように動作するはずです：

def calculate_df_columns_mean(self, df): 
    return df.apply(lambda x: remove_outliers(x.tolist()).mean()

出典

2016-08-09 10:45:48 EdChum

remove_outliersはリストを取得し、クリーンリストを返します。 –

私の新しい編集を試してみるとうまくいくはずですが、本当にあなたは 'remove_outliers'をnp配列と、可能であればベクター化された方法で操作するように修正することに焦点を当てるべきです – EdChum

使用dataFrame.apply(func, axis=0)：

# axis=0 means apply to columns; axis=1 to rows 
df.apply(numpy.sum, axis=0) # equiv to df.sum(0)

出典

2016-08-09 10:41:15

私はより多くのパンダの方法で、次の関数を書くことができますどのようにパンダのデータフレーム

答えて

関連する問題