8
既存のコーパスに追加する機能はありますか?私はすでに行列を生成していますが、私は定期的にテーブル全体をシャンバンを再処理することなく追加するつもりですSklearnに新しいテキストを追加するTFIDIFベクトル化ツール(Python)
例:
articleList = ['here is some text blah blah','another text object', 'more foo for your bar right now']
tfidf_vectorizer = TfidfVectorizer(
max_df=.8,
max_features=2000,
min_df=.05,
preprocessor=prep_text,
use_idf=True,
tokenizer=tokenize_text
)
tfidf_matrix = tfidf_vectorizer.fit_transform(articleList)
#### ADDING A NEW ARTICLE TO EXISTING SET?
bigger_tfidf_matrix = tfidf_vectorizer.fit_transform(['the last article I wanted to add'])
をいただき、ありがとうございます答えに時間がかかる。私はこれを検索インデックスとして使用し、関連性によって結果のリストを生成するためにcosine_similarityを使用しています。新しい文書を追加したいという願いを追加するたびに、私のコーパス全体を再調整する必要はありません。 –
ちょっとハワード、私は 'idf_'を更新する方法を研究しました。私の編集した答えをチェックしてください。 – maxymoo
恐ろしいです!素晴らしい応答をありがとう! –