私はムービーのレンズデータセットで作業していますが、行とムービーIDの列としてユーザーIDの行列(m×n)を持っており、次元削減技法と行列分解を使ってスパース行列(m×k、k < n)。私はk-最近傍アルゴリズム(ライブラリではなく、自分のコード)を使って性能を評価したいと思います。私はsparkR 1.6.2を使用しています。私は自分のデータセットをsparkRのトレーニングデータとテストデータに分割する方法を知らない。ネイティブR関数(サンプル、サブセット、CARET)を試しましたが、スパークデータフレームと互換性がありません。 sparkRで書かれた私自身の関数を使って、クロスバリデーションと分類子を実行するための提案をしてください。sparkrのクロスバリデーション
0
A
答えて
0
sparklyr(https://spark.rstudio.com/)パッケージはデータを分割するための簡単な機能を提供します。たとえば、df
という名前のデータフレームがSparkにある場合は、compute()
でそのコピーを作成し、次にそれをsdf_partition()
でパーティション化することができます。
df_part <- df %>%
compute("df_part") %>%
sdf_partition(test = 0.2, train = 0.8, seed = 2017)
df_part
その後、スパークDATAFRAMEへ接続だろう。 collect()
を使用してSpark DataFrameをRデータフレームにコピーすることができます。
関連する問題
- 1. Scikitlearn - クロスバリデーション
- 2. CARTモデルのクロスバリデーション
- 3. ROCとのクロスバリデーション?
- 4. がSparkR
- 5. はsparkR
- 6. SparkRのRandomForestアルゴリズム?
- 7. WindowsのSparkR
- 8. createDataFrameのSparkRボトルネック?
- 9. トレーニング/テストセットとのクロスバリデーション
- 10. SVM回帰のクロスバリデーション
- 11. ケラスとクロスバリデーション
- 12. dropDuplicates in SparkR
- 13. SparkR dapply not working
- 14. SparkR vs sparklyr
- 15. クロスバリデーションとグリッド検索
- 16. クロスバリデーション+スケルトンの決定木
- 17. SparkRでのファイルの入手
- 18. SparkRの測定精度
- 19. Google DataProcのspark-shellとsparkR
- 20. シンプルなSparkR 1.6の例
- 21. WSO2 MLクロスバリデーションとグリッド検索
- 22. キャレットとsvmの予測のクロスバリデーション
- 23. オレンジ色のpythonライブラリとのクロスバリデーション
- 24. SparkRでJupyterノートブックを使用
- 25. WindowsにsparkRをインストールする
- 26. SparkR DataFrameをジョブにシリアライズ
- 27. sparkR 1.6:GLM(二項ファミリ)
- 28. SparkR Write into a Parquet file
- 29. HiveでSparkRデータフレームをロード
- 30. クロスバリデーション(Weka)のカスタム折りたたみ
これはむしろあいまいです。試したコードをサンプルデータで再現可能なサンプルを作成できますか?理想的には、望ましい結果が得られますか? – Konrad