1

私はSparkを使っていくつかのデータをクラスタ化しました。興味のある特定のエントリとエントリが入っている同じクラスタ内の他の要素との類似度スコアを取得したいのですが、Sparkのアルゴリズムやメソッドはありますか?スパーククラスタリング:同じクラスタ内の要素の類似度を取得する方法は?

RowMatrixのColumnSimilarities()関数を読んだことがありますが、すべてのvs-all類似性には興味がありません。他のベクトルのセットに対して非常に特異性があります。

答えて

1

Sparkにこのような組み込み機能がないようです。 ColumnSimilarities()を使用すると、インデックスiとjの結果がアイテムiとjに対応します。

しかし、それは明らかに非効率的であり、正直でも良い気分にはなりません。

私はあなたの場合、ColumnSimilarities()の実装を見て、アイテムペアの類似性を調整します。もしそれが良いのであれば、Apache Sparkプロジェクトにも貢献することができます! ;)

関連する問題