cosine-similarity

2熱

1答えて

ランダムな超平面を使って高次元で最近傍探索に関するいくつかの解法を読みましたが、バケットの仕組みについてはまだ混乱しています。私は100次元のベクトルと100万のクエリの形で100万の文書を持っています。各クエリについて、コサイン類似度に基づいて最も近い隣を見つける必要があります。ブルートフォースのアプローチは、クエリのcosineの値をすべて1億のドキュメントで見つけ、値が1に近いものを選択する

2熱

1答えて

PHPで計算のための配列を作成する方法？

まず、私はこの ===================================== | id | userid | item_id | rating | ===================================== | 1 | 1 | B | 5 | | 2 | 1 | C | 4 | | 3 | 2 | A | 4 | | 4 | 2 | C |

0熱

1答えて

エラー： 'list'オブジェクトに属性 'lower'がありません

2つの異なるcsvファイルの2つの列間のコサイン類似度を計算するためにこのコードを作成しました。 from sklearn.feature_extraction.text import CountVectorizer from sklearn.metrics.pairwise import cosine_similarity from sklearn.feature_extraction.te

0熱

1答えて

pySparkの列類似性の問題

tl; dr 行の類似性を比較するためにpySparkを使用するにはどうすればよいですか？私は私が従うように余弦類似度を計算することができるscipyのダウンロードを使用して互いに print (pdArray) #[[ 0. 1. 0. ..., 0. 0. 0.] # [ 0. 0. 3. ..., 0. 0. 0.] # [ 0. 0. 0. ..., 0. 0. 7.] # ..

0熱

1答えて

コサイン類似度スコア二つの異なるベクトル化技術のために学ぶのは同じです、私は最近、仕事が20_newgroupsデータセットを使用しての文書を表現するために、3つの異なるベクトル化技術（言葉のバッグ、TF、TFIDF）を使用することです割り当てに取り組んでいます

ベクトル形式に変換し、20_Newsgroupsデータセットの各クラス間の平均コサイン類似度の差を分析しようとしました。ですから、ここでは私がPythonでやろうとしていることがあります。私はデータを読んで、sklearn.feature_extraction.text.CountVectorizerのBag of Wordsテクニックのクラスのfit（）とtransform（）関数とTFIDFテ

1熱

1答えて

2つの文字列間のsklearn cosine_distancesは、合計データセットのサイズによって異なりますか？

私はTfidfVectorizerトランスフォームを行った後に、コサイン_ディスタンスをメトリックとして、DBSCANを使用して文字列の束をクラスタリングしようとしています。 2つの弦があるとします。それらの間のcosine_distance（sklearn.metrics.pairwise.cosine_distanceを使用して計算されたもの）は、それらが2つの文字列である場合、それらが大規模

0熱

1答えて

ユーザ推奨のコサイン類似度

コサイン類似度は、2人のユーザが質問に対する回答に基づいて類似しているかどうかを判断するのに適したアプローチですか？私はユーザーに10の質問に答えて、10次元の整数ベクトルへの応答を解決しようとしています。同様のユーザーを見つけるためにコサイン類似度を使用する予定です。私は各質問を整数に分解し、整数を合計して各ユーザを単一の整数に解決することを考えましたが、このアプローチの問題は類似性測度に問

0熱

1答えて

rの文書集合の余弦とjaccardの類似度を計算する

私は、ほぼ14000の文書間の類似度を計算します。しかし、コードは実行に時間がかかりすぎている。同じ作業をより速く行うための他の方法はありますか？私はこのコードを、2時間で実行される最初の文書を実行するとは、ここに私のコード wb=createWorkbook() #create workbook addWorksheet(wb,"absSim") #create worksheet lis

0熱

1答えて

ユーザーを比較する際の類似性の程度が良い

10の質問に対する回答に基づいてユーザーを比較したいと考えています。私の元の考えは、各質問を整数[1,5]に解決することでしたが、この考え方は常に働くことはありません。たとえば、次のように vec1 = [1,1,1,1,1,1,1,1,1,1] vec2 = [5,5,5,5,5,5,5,5,5,5] get_cos_sim(vec1, vec2) = 1 ので、ユーザーは完全に異なり答えたにも

1熱

1答えて

Python：これは、文字列のリストを比較しソートするのに非効率的な方法ですか？

私はAとBの2つの文字列リストを持っています。Aの各文字列に対して、Bのすべての文字列と比較して最も類似したものを選択したいと思います。私が使用している比較関数は、I found on this questionというカスタムコサイン類似度測定値です。ここではそれがどのように動作するかです： import nltk, string from sklearn.feature_extraction.