k-means

    -1

    1答えて

    スパークや機械学習に慣れていないので、練習するために、データセットを使ってspark 1.6.0でk-meansアルゴリズムを作成しようとしていました。 apache sparkウェブサイトのexampleに指定されているようにしていました。 そうしながら、私はこのエラーました: scala> val rdd = sc.textFile("/user/rohitchopra32_gmail/Pro

    2

    1答えて

    私は、ユーザーが答えようとしているいくつかの質問と選択肢があります。彼らは、このような形式があります: question_id, text, choices を、各ユーザーのために、私は答えた質問を保存し、MongoDBのにJSONとして各ユーザが選択肢を選択: {user_id: "", "question_answers" : [{"question_id": "choice_id", .

    0

    1答えて

    kmeansクラスタリングを3つ以上の機能で実行したいと思います。私は2つの機能を試し、sklearn.cluster KMeansに3つ以上の機能を提供する方法を考えました。 私のコードとデータフレームは、実行する機能を選択したいものです。私は入力として複数のデータフレームを持っており、それらをフィーチャーとして提供しなければなりません。一般 # currently two features a

    1

    2答えて

    シルエットスコアを使用して自分のデータセットに最適なクラスター数を選択したいと思います。私のデータセットは、このブランドを購入した顧客の数、ブランドの売上、ブランドが各カテゴリで販売する商品の数を含む2,000以上のブランドに関する情報です。 私のデータセットはまれであるため、クラスタ化する前にMaxAbsScalerとTruncatedSVDを使用しました。 私が使用しているクラスタリング方法は

    0

    1答えて

    私は5つの機能を持つKmeansクラスタリングアルゴリズムを実行したいと思います。 (K = 4)しかし、私はこれを言っインデックスエラーを取得しています: > Traceback (most recent call last): > File > "C:\....py", line 756, > in <module> > plt.plot(X[i][0],X[i][1],colors

    -2

    1答えて

    すべての列が数値ではないため、異なるデータ型の列(ProductId、Name、size、color、class、deptなどの列)を持つ表があります。一緒に。データはNetezzaに格納されていますが、高速処理のためにデータ量が膨大なため(約200万行)、DB側でのみ実行したいと考えています。 RでGowerの類似性を実装しようとしましたが、時間がかかります。 Netezza側で使用できるUDF

    -1

    1答えて

    と元のクラスタセンター/重心を得る私は戻って結果を書き込むk平均モデル val kmeans = new KMeans().setK(k).setSeed(1L) val model = kmeans.fit(train_dataset) 、次いで抽出クラスタの中心(重心) var clusterCenters:Seq[(Double,Double,Double,Double,Double,

    0

    1答えて

    2つの非常に大きなクラスタを示すPCAがあります。どのクラスタのサンプルがどのクラスタにあるか把握する方法はわかりません。 それはPCAを生成するprcompを使用して、イムを助けている場合: pca1 <- autoplot(prcomp(df), label = TRUE, label.size = 2) 私のアプローチは、クラスタを取得するために2つのグループに関数kmeansを使用して

    0

    1答えて

    私はfrom pyspark.ml.clustering import KMeansライブラリを使用してKMeansクラスタリングを行います。私はを確実にして、クラスターが10回だけ移動し、はに10回移動します。これにはどのパラメータを使用する必要がありますか?私にとっては、それはmaxIter=10でなければならないと思いますが、わかりません。どちらが最高ですか? maxIter=10またはin

    0

    1答えて

    スパークmllib kmeansを使用しようとしましたが、ジョブは "collectAsMap at KMeans.scala:302"というステージでハングしています。私のコードはPythonによって書かれています。 、 "KMeans.scalaで集計:404"、: は、いくつかのいずれかは、そのような "436 KMeans.scalaに集まる"​​ など、すべてのステージ上で何が起こってい