2013-03-06 8 views
5

私はscikit-learnから始まり、一連のドキュメントをクラスタリングと分類を適用できるフォーマットに変換しようとしています。私はベクトル化の方法と、ファイルをロードしてボキャブラリを索引するtfidf変換に関する詳細を見てきました。scikit-learn、ベクトル化されたドキュメントセットにフィーチャを追加

はしかし、私はベクトル化機能によって生成された各文書ベクトルに機能を追加することができますどのように

など、著者、担当した部門、トピックのリストとして、各文書のための余分なメタデータを持っていますか?

答えて

8

追加のカテゴリデータにDictVectorizerを使用し、scipy.sparse.hstackを組み合わせて組み合わせることができます。

+0

優れていると思いますが、hstackが必要なようです。ありがとう! – Mortimer

関連する問題