0
私は、数百万行のトランザクション・マーケット・バスケット・データのアフィニティ分析をすばやく実行しようとしています。Hadoopを使用したマーケット・バスケット分析
クラウド上スパーク&のHadoopの上にRサーバを作成した- (アズールHDInsight)をHDFS
- 上
- ロードされたデータはRevoScaleR を使ってみましょう:私はこれまで何をやったか
しかし、私は最後のステップで立ち往生しました。私が理解する限り、私はRevoScaleR内で提供されていない機能を使用してデータを処理することはできません。ここで
は、HDFS上のデータにアクセスするためのコードです:
bigDataDirRoot <- "/basket"
mySparkCluster <- RxSpark(consoleOutput=TRUE)
rxSetComputeContext(mySparkCluster)
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort)
inputFile <-file.path(bigDataDirRoot,"gunluk")
だから私のinfputFileはこれを実行した後、既にで/バスケット作成Azureブロブ/ gunluk
gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)
にCSVです、私はhead(gunluk_data)を使ってデータを見ることができます。
どのように使用すればいいですか? arulesパッケージ機能。これは可能ですか?
そうでない場合は、通常のRパッケージ(つまり、arules)を使用してHDFSにあるCSVファイルを処理できますか?