2016-05-24 11 views
0

私はn次の多次元ベクトルを持っています。それらを処理する最良の方法は何ですか。多次元ベクトルの保存と比較

  • ストレージ(それらを格納するための最良のモードが何であるか、SQL、モンゴ、ドキュメント?)
  • 比較(私はそれらのうちの2つを比較し、類似性を見つけるにはどうすればよいです)。

例:

a{1,3,4,1,-1}, 
b{2,3,3,0,0}, 
c{2,3,2,8,9} 

我々は上記の二つを比較すると、abはもっと似ています。

どうすれば大規模にできますか?私はそのようなベクトルの何千ものを保存したい。

同様にベクトル距離にすることができます。 Vector Distance

+0

を '固定N 'であるか、それは変えることができますか?ストレージは、異なる値の「n」を持つベクトルを処理する必要がありますか? –

+0

'a'と' b'はなぜ(より)類似しているのですか?類似性を計算するアルゴリズムとは何ですか?すべてのベクトルのペア間の類似度を計算しますか? –

+0

類似性は、ベクトル距離(更新された質問)です。そして、ええ、nは一定です。 – Codevalley

答えて

2

私は、Neo4jのようなグラフデータベースを使っています。 Cypherクエリーを使用してユークリッド距離を計算することができます(そして、おそらく最も近い点を得るためにk-meansクラスタリングを実装します)。実装の詳細については

は、以下の記事をチェックアウト -

関連する問題