0
カウントベクトル化されたデータフレーム内に約2000のテキスト機能があります。私は、予測モデルのために実際の特徴重要度貢献度を有する800個のテキスト特徴列のリストを有する。私はこの800列だけを残し、残りの1200列は私の予想に大きく寄与しないので削除します。パンダのカウントベクトル化された疎のデータフレームからいくつかの列を削除する方法
どうすればいいですか?私はテキストファイルに維持される列のリストを持っています。
cv = CountVectorizer(max_features = 2000,analyzer='word')
cv_text = cv.fit_transform(data.pop('text'))
for i, col in enumerate(cv.get_feature_names()):
data[col] = pd.SparseSeries(cv_text[:, i].toarray().ravel(), fill_value=0)
私は維持するだけで列のリストではなく、ドロップする列のリストを持っています。 –
@ashokeapen、更新された回答を参照してください... – MaxU