tf-idf

0熱

1答えて

この本の "TensorFlow Machine Learning Cookbook"のデータ処理では、fit_transformの機能を使用してscikitの機能を学び、tfidfのテキストをトレーニング用に学習します。著者は列車を分離して機能テストする前にすべてのテキストデータを提供します。それは真の行動ですか、それとも最初にデータを分離して、電車でtfidf fit_transform、テス

0熱

1答えて

しきい値を使って行列を数えよう

私は類似性を分析するために必要な何百ものtxtファイルがあるフォルダを持っています。以下は、類似性分析を実行するために使用するスクリプトの例です。最後に、私は、など私がプロットすることができ、配列や行列を取得私は、同じファイルを比較するときcos_similarity == 1を取り除く、cos_similarity > 0.5（または、私が使用することを決定し、他のしきい値）でありますどのよう

2熱

1答えて

フィッティングTfidfVectorizer - AttributeError/TypeError

私はまだPythonに関する知識が増えていますが、TfidfVectorizerに固執しています。私は他のいくつかの質問を見てきましたが、今まで私を助けてくれたものは見つかりませんでした。私は製品の説明のリストのためにtfidf_matrixを作成しようとしていますが、私は失敗しています。ここでは私のコードです： import nltk import numpy as np import

0熱

1答えて

エラー： 'list'オブジェクトに属性 'lower'がありません

2つの異なるcsvファイルの2つの列間のコサイン類似度を計算するためにこのコードを作成しました。 from sklearn.feature_extraction.text import CountVectorizer from sklearn.metrics.pairwise import cosine_similarity from sklearn.feature_extraction.te

0熱

1答えて

gensimでtf-idfを計算する際の問題

私はGensimを使用して、以下に述べる私のコーパスのtf-idfのスコアを計算しています。 corpus=['human interface computer', 'survey user computer system response time', 'eps user interface system', 'system human system eps', 'user respon

1熱

1答えて

pythonでgensimのtf-idf値を取得する方法

genfを使って次のようにtf-idfの値を計算しています。 texts = [['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system', 'response', 'time'], ['eps', 'user', 'interface', 'system'], ['system', 'human',

1熱

1答えて

tf-idf（Gensim）を使用してコーパス内で最も重要な単語を取得する

次のようにtf-idfを計算しています。 texts=['human interface computer', 'survey user computer system response time', 'eps user interface system', 'system human system eps', 'user response time'] dictionary = co

0熱

1答えて

Scikitはカスタムトランスフォーマーの次元の不一致を学ぶ

私はRから来ているので、scikit APIはまだ私に非常に混乱しています。私はパイプラインについて学ぶためにこのチュートリアルhttp://michelleful.github.io/code-blog/2015/06/20/pipelines/に従っていました。それでは、あくまでも参考のために偽のデータセットを作成してみましょう： x1,x2,y foo,zoo,1 bar,moo,2

0熱

1答えて

Python TF-IDFプロダクト

TF_norm行列とIDFベクトルからTF-IDFを作成しようとしています。彼らは同じ次元を持っていないことを知っているので、私は2つをどのように掛け合わせることができないのか分からない。 TF_norm行列を使ってreduceを追加するか、IDFベクトルを変換する必要がありますか？ここから完全になくなった。 #c) Normalized term frequency count=0 tota

0熱

1答えて

gensimのLSAモデルで使用するtf-idfの式はどれですか？

tfとidfを計算する方法はさまざまです。 LSAモデルでgensimがどの式を使用しているかを知りたい。私はそのソースコードlsimodel.pyを調べていますが、おそらくメモリ最適化のためにドキュメント用語行列が作成されている場所はわかりません。 one LSA paperで、Iドキュメントタームマトリックスの各セルは、その単語のエントロピーで除算し、その文書におけるその単語の対数周波数であ