私はちょうどこれは私が最近bag of words introduction : kaggleを練習していた私はそれsklearn countvectorizerのfit_transformとtransformの違いは何ですか?
のために非常に申し訳なく思って愚かに聞こえるならば、私はいくつかのことをクリアしたいので、ランダムフォレストを学び始めました:
vectorizer.fit_transformを使用して( 「* 洗浄レビューのリストに*」)今
我々はfit_predic を使用電車のレビューの単語列の袋を準備していたとき、 t列車のレビューのリストに、今私はfit_predictが2つのことを知っている>まずそれはデータに適合し、の語彙を知っていて、各レビューでベクトルを作ります。
ので、我々はvectorizer.transform(「クリーン列車のレビューのリスト」)を使用する場合、これはちょうど、各レビューのためにベクターにテストレビューのリストを変換します。
私の質問は.....なぜ使用しないでくださいfit_transformもテストリストにあります!
我々はfit_transform使用していないときに我々は、本質的に言っている:私は私はあなたに私の将来を与えてみましょう、それはそれはを過剰適合につながると言う文書に意味が、それはとにかくそれを使用するために私には意味があるん待ちます列車のレビューの最も頻繁な単語を使用してテストレビューの特徴ベクトルを作る!どうしてテスト用の配列の中で最も頻繁に使われる単語を使って配列を作るのでしょうか?
ランダムなケアはどういう意味ですか?我々は無作為の森林を与える場合列車の特徴配列と列車の機能の感情は動作し、それ自身を訓練し、テストフィーチャ配列感情の予測を与えるだけではありません。
注:私は