1
私はPythonには新しく、最初にRow Totalsで、次にColumn Totalsでユーザームービーレーティングのデータフレームをサブセット化しようとしています。列の合計によるフィルタが完了するまでに数時間かかるので、コードを最適化するためのいくつかのポインタを提供できるかどうかは疑問でした。行と列の合計でデータフレームをサブセット化
data_cols = ['user_id','movie_id','rating']
data = pd.read_csv('netflix_data/TrainingRatings.txt', sep=',', names=data_cols)
utrain = (data.sort_values('user_id'))
print(utrain.tail())
Movie_Ratings = utrain.pivot_table(index = ['user_id'],columns = ['movie_id'], values = ['rating'], aggfunc = lambda x:x)
Movie_Ratings.head()
Movie_Ratings = Movie_Ratings.fillna(0)
#Filter by column totals
Movie_Ratings.loc[len(Movie_Ratings)] = [Movie_Ratings[col].sum() for col in Movie_Ratings.columns]
##Following portion is taking the maximum amount of time
x = Movie_Ratings.loc[len(Movie_Ratings)-1]
for col in Movie_Ratings.columns:
if(x[col] <= 500):
Movie_Ratings.drop(col,axis = 1, inplace = True)
あなたが二行目を説明できますか? –
確かに、私に秒を教えてください – jezrael
申し訳ありません、編集された答えを確認してください。 – jezrael