2016-12-20 13 views
0

私は機械学習の初心者です。非テキスト属性を持つ同様の顧客を見つけるための類似検索の手法

私はモデルを構築するための提案が必要です。ここに問題文があります -

私は特定の会社のすべての製品(4製品)を所有する顧客のデータセットを持っています。X - このセットをCust4と呼んでください。
同じ会社のいくつかの製品(3製品)しか所有していない顧客の別のデータセットもあります。X - このセットをCust3と呼んでください。
私は両方のデータセット(テキストデータはありません)に多数の「カテゴリ」属性と「数値」属性を収集しました。
私は3つの製品をお持ちのお客様に、よりを販売したいと思います(私は彼らに別の第四の製品を販売するようになる)ので、そう、 はCust4顧客のセットと比較することCust3の顧客であるか類似したを知りたいのですが私はCust4セットの顧客と非常に似ている顧客にのみ販売しています。

たとえば、Cust3の特定のテスト顧客が、たとえばCust4セットまたは70%類似していると言われるようなテクニック/テクニックはありますか?これまで

リサーチ -
私は1クラス分類問題としてこれをフレームにしようとしていますし、1クラス分類(Rで)特に1クラスSVMに見てきました。 これはモデルを構築し、データを分類しますが、今の確率予測はサポートしていません(Rパッケージe1071)。

この種の問題に適している可能性のある他のテクニックを覗いてみると役に立ちます。すべての助けを感謝します。

答えて

0

コースの場合、これはcust4のように見える顧客を探しているため、4番目の製品の事前確率がないために確率を得ることができないため、クラス分類の問題(または類似している)です。 Cust3とCust4の文字の間には類似点があります。

クラスタリングアルゴリズムをお勧めします。 1.Cust4(1つ以上のクラスタ)のクラスタリングを行い、1つ以上の重心(クラスタの中心)を取得します。

2. Cust3の各顧客について、この顧客と各重心からの距離を数えます(クラスタリングで使用された同じ変数を使用する必要があります)。距離が一定の閾値以上である場合。だから、この顧客はproduct4を食べている。

k最近隣のような他の技術がありますが、計算時間が非常に高価です。

希望はあなたを助けるでしょう。

+0

ありがとうございます@raait。私はあなたが提案するクラスタリング方法を試してみます。 あなたがそのためのいくつかの具体的な方法についてもっと精巧にできるなら、それは大きな助けになります。 – Uno

1

ガウス混合モデルを試してください。各クラスの個別のGMMを訓練すれば、そのモデルから任意の入力サンプルについて尤度スコアを得ることができます。

+0

私はこれらの技術のいくつかに精通していない、私はそれを試してみたいです。だからあなたの提案によれば、1つのGMM(顧客クラスが1つしかないので)があり、Cust3から各顧客の可能性スコアを得て、ある閾値に基づいて選択します。そうですか? – Uno

関連する問題