k-means

-1熱

1答えて

spark scalaでjava.lang.NumberFormatExceptionエラーが発生しました。

スパークや機械学習に慣れていないので、練習するために、データセットを使ってspark 1.6.0でk-meansアルゴリズムを作成しようとしていました。 apache sparkウェブサイトのexampleに指定されているようにしていました。そうしながら、私はこのエラーました： scala> val rdd = sc.textFile("/user/rohitchopra32_gmail/Pro

2熱

1答えて

KMeansのjsonデータをベクトル化する方法は？

私は、ユーザーが答えようとしているいくつかの質問と選択肢があります。彼らは、このような形式があります： question_id, text, choices を、各ユーザーのために、私は答えた質問を保存し、MongoDBのにJSONとして各ユーザが選択肢を選択： {user_id: "", "question_answers" : [{"question_id": "choice_id", .

0熱

1答えて

kmeansがデータフレームでクラスタリングする（scipy）

kmeansクラスタリングを3つ以上の機能で実行したいと思います。私は2つの機能を試し、sklearn.cluster KMeansに3つ以上の機能を提供する方法を考えました。私のコードとデータフレームは、実行する機能を選択したいものです。私は入力として複数のデータフレームを持っており、それらをフィーチャーとして提供しなければなりません。一般 # currently two features a

1熱

2答えて

同じデータとクラスタ数で異なるシルエットスコア

シルエットスコアを使用して自分のデータセットに最適なクラスター数を選択したいと思います。私のデータセットは、このブランドを購入した顧客の数、ブランドの売上、ブランドが各カテゴリで販売する商品の数を含む2,000以上のブランドに関する情報です。私のデータセットはまれであるため、クラスタ化する前にMaxAbsScalerとTruncatedSVDを使用しました。私が使用しているクラスタリング方法は

0熱

1答えて

IndexError：PythonでKMeansを実行中にリストのインデックスが範囲外になる

私は5つの機能を持つKmeansクラスタリングアルゴリズムを実行したいと思います。（K = 4）しかし、私はこれを言っインデックスエラーを取得しています： > Traceback (most recent call last): > File > "C:\....py", line 756, > in <module> > plt.plot(X[i][0],X[i][1],colors

-2熱

1答えて

kmeansの実装で、データベースレベルでの混合変数

すべての列が数値ではないため、異なるデータ型の列（ProductId、Name、size、color、class、deptなどの列）を持つ表があります。一緒に。データはNetezzaに格納されていますが、高速処理のためにデータ量が膨大なため（約200万行）、DB側でのみ実行したいと考えています。 RでGowerの類似性を実装しようとしましたが、時間がかかります。 Netezza側で使用できるUDF

-1熱

1答えて

スパークK-手段は、正規化

と元のクラスタセンター/重心を得る私は戻って結果を書き込むk平均モデル val kmeans = new KMeans().setK(k).setSeed(1L) val model = kmeans.fit(train_dataset) 、次いで抽出クラスタの中心（重心） var clusterCenters:Seq[(Double,Double,Double,Double,Double,

0熱

1答えて

PCAからクラスタを取得するr

2つの非常に大きなクラスタを示すPCAがあります。どのクラスタのサンプルがどのクラスタにあるか把握する方法はわかりません。それはPCAを生成するprcompを使用して、イムを助けている場合： pca1 <- autoplot(prcomp(df), label = TRUE, label.size = 2) 私のアプローチは、クラスタを取得するために2つのグループに関数kmeansを使用して

0熱

1答えて

クラスタの動きを修正するPySpark

私はfrom pyspark.ml.clustering import KMeansライブラリを使用してKMeansクラスタリングを行います。私はを確実にして、クラスターが10回だけ移動し、はに10回移動します。これにはどのパラメータを使用する必要がありますか？私にとっては、それはmaxIter=10でなければならないと思いますが、わかりません。どちらが最高ですか？ maxIter=10またはin

0熱

1答えて

spark mllib kmeansを実行している場合、ウェブサイト上の各ステージの役割は何ですか？

スパークmllib kmeansを使用しようとしましたが、ジョブは "collectAsMap at KMeans.scala：302"というステージでハングしています。私のコードはPythonによって書かれています。、 "KMeans.scalaで集計：404"、：は、いくつかのいずれかは、そのような "436 KMeans.scalaに集まる" など、すべてのステージ上で何が起こってい