2016-03-23 9 views
0

私は、一連のユーザーと読んだドキュメントの履歴を持つデータセットを持っています。すべてのドキュメントには、それらに関連付けられたメタデータ属性(トピック、国、著者)があります。ユーザーの読書習慣の分類的クラスタリング

クリックしたドキュメントに関連付けられているメタデータ属性の1つにつき、読者の履歴に基づいてユーザーをクラスタ化したいとします。この属性には7つのカテゴリ値があり、ユーザーの読書習慣にパターンがあり、7つのクラスターに分けることができるという仮説を証明したいと考えています。言い換えれば、ユーザは、特定のメタデータカテゴリの7つの可能な値のうちの1つに基づいて文書を読むことが多い。

特定のパッケージのように、特にRでこれを行う方法に関するアドバイスはありますか?データがカテゴリで数値ではないので、標準のk-meansアルゴリズムはこのケースでうまく機能しないことに気付きます。

答えて

0

クラスタ分析は、何も証明するために使用できません。

結果は、正規化、機能選択、および距離メトリックの選択に非常に敏感です。信頼できる結果は得られません。あなたが出すほとんどの結果は全く役に立たない。だから、の証明は例という信頼性があります。

彼らは、あなたがしてが他の方法と一緒に勉強する必要があるパターンを見つけること、すなわち、探索的分析のために使用すべきです。

関連する問題