1
私はscikit-learnには新しく、私が取り組んでいることについていくつかの助けが必要でした。Scikit-Learnの特徴抽出でCountVectorizerをマージする
多項式Naive Bayes分類を使用して、2種類のドキュメント(A型とB型など)を分類しようとしています。これらのドキュメントの用語カウントを取得するために、私はsklearn.feature_extraction.textにCountVectorizerクラスを使用しています。
問題は、トークンを抽出するために、2つのタイプのドキュメントで異なる正規表現が必要であるという点です(CountVectorizationのtoken_patternパラメータ)。あなたが試すことができ
vecA = CountVectorizer(token_pattern="[a-zA-Z]+", ...)
vecA.fit(list_of_type_A_document_content)
...
vecB = CountVectorizer(token_pattern="[a-zA-Z0-9]+", ...)
vecB.fit(list_of_type_B_document_content)
...
# Somehow merge the two vectorizers results and get the final sparse matrix