2016-12-15 5 views
0

私は、数百万行のトランザクション・マーケット・バスケット・データのアフィニティ分析をすばやく実行しようとしています。Hadoopを使用したマーケット・バスケット分析

クラウド上スパーク&のHadoopの上にRサーバを作成した
  • (アズールHDInsight)をHDFS
  • ロードされたデータはRevoScaleR
  • を使ってみましょう:私はこれまで何をやったか

しかし、私は最後のステップで立ち往生しました。私が理解する限り、私はRevoScaleR内で提供されていない機能を使用してデータを処理することはできません。ここで

は、HDFS上のデータにアクセスするためのコードです:

bigDataDirRoot <- "/basket" 
mySparkCluster <- RxSpark(consoleOutput=TRUE) 
rxSetComputeContext(mySparkCluster) 
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort) 
inputFile <-file.path(bigDataDirRoot,"gunluk") 

だから私のinfputFileはこれを実行した後、既にで/バスケット作成Azureブロブ/ gunluk

gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS) 

にCSVです、私はhead(gunluk_data)を使ってデータを見ることができます。

どのように使用すればいいですか? arulesパッケージ機能。これは可能ですか?

そうでない場合は、通常のRパッケージ(つまり、arules)を使用してHDFSにあるCSVファイルを処理できますか?

答えて

0

arulesでは、read.transactionsを使用してファイルからデータを読み込み、write.PMMLを使用してルール/項目セットを書き出すことができます。

関連する問題