2011-12-14 13 views
4

私はアイテムは、他の項目の何千人に比べて、私はこれらのそれぞれに重みを割り当てたい項目A.さまざまな基準に基づいて1つのアイテムを選択する理論は何ですか?

に最も類似している項目を見つけるしなければならない問題を解決する必要がありますどれくらい似ているかによってアイテムはアイテムAになります。様々な基準が最終重量を決定する。たとえば、item1.someProperty == otherItem.somePropertyの場合は、item1.anotherProperty == otherItem.anotherPropertyの場合は重みを5増やします。somePropertyanotherPropertyより重要なため、重みを1だけ増加させます。

私がこのことをすべて説明している理由は、このシステムを作成するのに役立つ理論があるかどうかを知りたいということです。特に、各基準の重みを選択する方法、アイテムの最終的な重量を計算する方法、およびすべてのアーキテクチャを構築する方法。

誰かが助けることができる理論があれば知っていますか?それとも、私がやろうとしていることをするためのより良い方法がありますか?

答えて

2

あなたはあなたのプロパティをディメンションと考えることができ、ディメンションから距離を構成することができます。プロパティ間に相関がある場合は、それも考慮に入れることができます(マハラノビス距離の場合はGoogle)。

しかし、基本的には

float distance(a, b) { 
    return w1 * ABS(a.x - b.x) 
     + w2 * ABS(a.y - b.y) 
      ... 
    ; 
} 

まで巻く代わりに用語を合計すると、あなたは(大きな違いを罰するために)の二乗項をまとめることができ、何でもありです。

公称データの場合、いくつかのエントロピーベースの差異測定を使用することができます。

2

これは、情報検索(IR)のvector space model(VSM)と少なくとも表面的に似ています。これは通常、単語の集まりに基づいていますが、他のデータ表現にも適用できます。

説明する重みは、VSM IRでの「フィールドブースティング」と呼ばれるものに対応します。

しかし、nearest neighbor searchも参照してください。

2

機械学習に関連する書籍をすべて読むことができます(例:this one)。アルゴリズムKNN(K nearest neighour)は問題を解決します。 基本的には、問題に対する距離測定値を定義してから、それらの距離を比較する必要があります。

関連する問題