2016-09-19 14 views
-2

は、私は、次の2列を持つパンダのデータフレームを持っている:関数kmeansクラスタリング

 Database Name    Name 

     db1_user     Login 
     db1_client    Login 
     db_care     Login 
     db_control    LoginEdit 
     db_technology    View 
     db_advanced    LoginEdit 

は、私がフィールド「名前」に基づいて、データベース名をクラスタ化する必要があります。私は

データセットを使用して、numpyのに変換する際= df2.valuesが

I印刷(dataset.dtype)を印刷するとき、型がオブジェクトです。私はちょうどクラスタリングを始めました。私が読んだところから、オブジェクトはKmeansクラスタリングに適した型ではないことを理解しています。

何か助けが得られるでしょう!

答えて

0

をすることになって

Login 
LoginEdit 
View 

を意味は何ですか?

k-meansは、連続する数値データに対してのみ機能する理由があります。 の平均値はであるため、このようなデータを明確に定義する必要があります。

クラスタリングが問題に適用されるとは思わないすべて(むしろデータクリーニングを参照)。しかし、明らかに、任意の距離で動作する方法が必要です.k平均はそうではありません。

0

"Name"属性の各GROUPごとにクラスタを作成するか、 "Name"の値に関係なくn個のクラスタを作成するかどうかはわかりません。私はここでどのようなクラスタリングが達成できるのか分かりません。

いずれの場合でも、わずか数日前にdatascience SEサイト(Rユーザーから)でも同様の質問があり、電子メールアドレスのローカル名の類似性が求められました( "@" )、データベース名ではありません。問題はあなたと似ています。このうち

チェック:

https://datascience.stackexchange.com/questions/14146/text-similarities/14148#14148

答えは、文字列ため異なる距離測定に関して包括的でした。

おそらく、これは調査する必要があります。次に、Pythonで利用可能な適切な距離測定値(または自分でプログラムできるもの)を決定し、それはあなたのニーズに合っています。

関連する問題