私は大きな点集合をクラスタリングしています。反復を通じて、割り当てられたポイントが以前の反復と同じであれば、クラスタプロパティの再計算を避けたいと思います。各クラスタはそのポイントのIDを保持します。私はそれらの要素を賢明に比較したくない、IDのベクトルの合計を比較することは危険である(小さいIDは大きなもので補うことができる)、私は平方和を比較すべきか?私が自信を持って使うことができるMatlabにハッシュ法がありますか?ベクトルの線形インデックスのためのMatlabのハッシュ演算子
例データ:
a=[2,13,14,18,19,21,23,24,25,27]
b=[6,79,82,85,89,111,113,123,127,129]
c=[3,9,59,91,99,101,110,119,120,682]
d=[11,57,74,83,86,90,92,102,103,104]
だから、問題は、私はちょうどサムをチェックすると、それは例えば、そのクラスタdの可能性があること、ポイント11103を失い及び9105を取得しています。そうすれば、私は誤ってクラスターに変化がないと思うでしょう。
サンプルデータを提供できますか? – Alex
私はMatlabのハッシュには自信がありません。このような比較のために、ismemberやsetdiffのようなセット操作は強力に見えます。パフォーマンスを心配するならば、長さを比較するだけで、ほとんどの変更されたセットを取り除くことができると思います。あるいは、最初のテストとしてランダムな要素があるとします。 – bdecaf
ご意見ありがとうございます。 Setdiffは本当に遅く、ランダムな要素をチェックすることも危険です。なぜなら、クラスターが収まるにつれて、いくつかのポイントを得る/緩めるからです。ポイントIDをランダムに選ぶと、私はそれらを見逃してしまう可能性があります。 – zamazalotta