まずは、私はPythonとnlp/machine learningの初心者です。今、これは実際にはかなりうまく動作Python Sklearnは、素朴なベイズ学習のためのカウント機能以上のものを使用しています。
vectorizer = CountVectorizer(
input="content",
decode_error="ignore",
strip_accents=None,
stop_words = stopwords.words('english'),
tokenizer=myTokenizer
)
counts = vectorizer.fit_transform(data['message'].values)
classifier = MultinomialNB()
targets = data['sentiment'].values
classifier.fit(counts, targets)
: は今の私は、次のコードを持っています。私はCountVectorizer
を介して疎なマトリックスを得ており、classifier
はマトリックスとターゲット(0,2,4)
を利用しています。
しかし、単語の数だけではなく、ベクトルでもっと多くの機能を使用するにはどうすればいいですか?私はそれを見つけることができないようです。前もって感謝します。
お返事ありがとうございました。これらのリンクは参考になります。しかし、私の質問はあなたが思うよりも実際にはもっと簡単だと思います。もっと多くのベクトル化ツールが利用可能であることが分かります。しかし、ちょうど私が追加の機能としてメッセージ自体の全体的な単語数を使用したいと言うことができます。それは単純な整数になります。現在、 'classifier.fit'関数は' CountVectorizer'によって返された行列を使います。 'count 'と' overall word count'の両方を使うために、 'classifier'が使う特徴ベクトルに単語カウントを追加するにはどうしたらいいですか? – Micha