私はsklearnで膨大な量のテキストデータを処理しています。まず、テキストのコンテキスト(単語数)をベクトル化し、TfidfTransformerを実行する必要があります。私はCountVectorizerからの出力をTfidfTransformerの入力に持っていないような次のコードを持っています。SklearnのCountVectorizerからTfidfTransformerへの移行
TEXT = [data[i].values()[3] for i in range(len(data))]
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
vectorizer = CountVectorizer(min_df=0.01,max_df = 2.5, lowercase = False, stop_words = 'english')
X = vectorizer(TEXT)
transformer = TfidfTransformer(X)
X = transformer.fit_transform()
私はこのコードを実行すると、私はこのエラーを取得:
Traceback (most recent call last):
File "nlpQ2.py", line 27, in <module>
X = vectorizer(TEXT)
TypeError: 'CountVectorizer' object is not callable
私は、テキストをベクトル化していたし、今では、マトリクス状にだと思った - 私が見逃している移行手順はありますか?ありがとうございました!!
あなたはおそらく、おそらく、 pipelineのためにこのような何かを探している
ありがとうございます。私は確かにそれを読む必要があります。 – achimneyswallow
ようこそ。あなたは*パイプラインで読む必要があります - それはおそらくsklearnの基本的な考えです。 –