tf-idf

    0

    1答えて

    この本の "TensorFlow Machine Learning Cookbook"のデータ処理では、fit_transformの機能を使用してscikitの機能を学び、tfidfのテキストをトレーニング用に学習します。著者は列車を分離して機能テストする前にすべてのテキストデータを提供します。それは真の行動ですか、それとも最初にデータを分離して、電車でtfidf fit_transform、テス

    0

    1答えて

    私は類似性を分析するために必要な何百ものtxtファイルがあるフォルダを持っています。以下は、類似性分析を実行するために使用するスクリプトの例です。最後に、私は、など私がプロットすることができ、配列や行列を取得 私は、同じファイルを比較するときcos_similarity == 1を取り除く、cos_similarity > 0.5(または、私が使用することを決定し、他のしきい値)でありますどのよう

    2

    1答えて

    私はまだPythonに関する知識が増えていますが、TfidfVectorizerに固執しています。私は他のいくつかの質問を見てきましたが、今まで私を助けてくれたものは見つかりませんでした。 私は製品の説明のリストのためにtfidf_matrixを作成しようとしていますが、私は失敗しています。ここで は私のコードです: import nltk import numpy as np import

    0

    1答えて

    2つの異なるcsvファイルの2つの列間のコサイン類似度を計算するためにこのコードを作成しました。 from sklearn.feature_extraction.text import CountVectorizer from sklearn.metrics.pairwise import cosine_similarity from sklearn.feature_extraction.te

    0

    1答えて

    私はGensimを使用して、以下に述べる私のコーパスのtf-idfのスコアを計算しています。 corpus=['human interface computer', 'survey user computer system response time', 'eps user interface system', 'system human system eps', 'user respon

    1

    1答えて

    genfを使って次のようにtf-idfの値を計算しています。 texts = [['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system', 'response', 'time'], ['eps', 'user', 'interface', 'system'], ['system', 'human',

    1

    1答えて

    次のようにtf-idfを計算しています。 texts=['human interface computer', 'survey user computer system response time', 'eps user interface system', 'system human system eps', 'user response time'] dictionary = co

    0

    1答えて

    私はRから来ているので、scikit APIはまだ私に非常に混乱しています。私はパイプラインについて学ぶためにこのチュートリアルhttp://michelleful.github.io/code-blog/2015/06/20/pipelines/に従っていました。それでは、あくまでも参考のために偽のデータセットを作成してみましょう: x1,x2,y foo,zoo,1 bar,moo,2

    0

    1答えて

    TF_norm行列とIDFベクトルからTF-IDFを作成しようとしています。彼らは同じ次元を持っていないことを知っているので、私は2つをどのように掛け合わせることができないのか分からない。 TF_norm行列を使ってreduceを追加するか、IDFベクトルを変換する必要がありますか?ここから完全になくなった。 #c) Normalized term frequency count=0 tota

    0

    1答えて

    tfとidfを計算する方法はさまざまです。 LSAモデルでgensimがどの式を使用しているかを知りたい。私はそのソースコードlsimodel.pyを調べていますが、おそらくメモリ最適化のためにドキュメント用語行列が作成されている場所はわかりません。 one LSA paperで 、Iドキュメントタームマトリックスの各セルは、その単語のエントロピーで除算し、その文書におけるその単語の対数周波数であ