1
初心者からスパークおよびPySpark。pyspark行列因子分解モデルからの潜在因子を取り出す
私はコラボレーションフィルタチュートリアルhereに従っています。
私はモデルを訓練することができました。しかし、ユーザーや製品に対応する潜在因子(ベクトル)へのアクセス方法はわかりません。ここでは上記のリンクからコードの先頭部分を再現
:私はmodel
から潜在的要因を抽出することができますどのように
from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating
# Load and parse the data
data = sc.textFile("data/mllib/als/test.data")
ratings = data.map(lambda l: l.split(','))\
.map(lambda l: Rating(int(l[0]), int(l[1]), float(l[2])))
# Build the recommendation model using Alternating Least Squares
rank = 10
numIterations = 10
model = ALS.train(ratings, rank, numIterations)
?
私は別の質問があります。 'spark-shell 'を使って、' val myfile = sc.textFile( "/ user/myname/path/to/file/myfile.txt")でHDFSのファイルにアクセスできます。しかし、 '' PySpark'で '' myfile = sc.textFile( "/ user/myname/path/to/file/myfile.txt") 'のようにこれを行うと、このディレクトリが存在しないと訴える。パスを 'hdfs:/// user/myname/path/to/file/myfile.txt'として指定すると、ファイルを読み込むことができません。 – Nik