2016-11-02 9 views
3

私はベクトル化しようとしている14784のテキスト文書がたくさんあるので、いくつかの分析を実行できます。私はskurarnでCountVectorizerを使って文書を特徴ベクトルに変換しました。私は呼び出すことによってこれをしなかった:パンダのデータフレームにsklearn CountVectorizerの結果を挿入

例は今、すべてのテキスト文書

の配列をある

vectorizer = CountVectorizer 
features = vectorizer.fit_transform(examples) 

、私は追加機能を使用しようとしています。このために、私はパンダのデータフレームに機能を格納しています。現在、私のパンダのデータフレーム(テキストフィーチャを挿入しない)の形状は(14784, 5)です。私の特徴ベクトルの形状は(14784, 21343)です。

ベクター化された機能をパンダのデータフレームに挿入するにはどうすればよいでしょうか?お使いのベースデータフレームがdfある場合

答えて

-1

、すべてを行う必要がある:私はいくつかのオプションをお勧めします

import pandas as pd  
features_df = pd.DataFrame(features) 
combined_df = pd.concat([df, features_df], axis=1) 

は分析の種類に応じて、役に立つかもしれない機能の数を、削減することができやっている。たとえば、あなたがまだ持っていない場合、私はストップワードとステミングを削除することを検討することをお勧めします。さらに、機能の数を制限するために、 features = vectorizer.fit_transform(examples, max_features = 1000)のようなmax_featuresを設定することができます。

+0

2行目で、ベクトル化されたフィーチャのデータフレームを作成していますか?もしそうなら、それは私にとってはうまくいかない。 'PandasError:私は次のエラーを取得!DATAFRAMEコンストラクタが正常に呼び出されていないが、' 私が使用: 'features_df = pd.DataFrame(RES)私は、これらの添加物のように解像度がCountVectorizer' fit_transform'方法 –

7

生文書からvocab辞書を学習した後の用語文書行列を返します。

X = vect.fit_transform(docs) 

稠密形式に疎CSRマトリックスを変換し、列が名前を特色する特徴、整数インデックスから配列マッピングを含有することを可能にします。

count_vect_df = pd.DataFrame(X.todense(), columns=vect.get_feature_names()) 

dfcount_vect_df列方向に連結します。

pd.concat([df, count_vect_df], axis=1) 
+0

の結果である ' 2行目 - 私が取り組んでいるいくつかのプロジェクトにそれらを組み込む予定です! – Tchotchke

関連する問題