私は、Pythonスクリプトを使用して、hereのようにSpark MLのALSルーチンを使用して潜在的な要因を計算しています。Spark MLのALS潜在因子をS3に保存するのが遅すぎる
潜在的要因を計算した後、私は次のように使用してS3にそれらを保存しようとしています:
model = als.fit(ratings)
# save items latent factors
model.itemFactors.rdd.saveAsTextFile(s3path_items)
# save users latent factors
model.userFactors.rdd.saveAsTextFile(s3path_users)
約150万人のユーザーがあります。 LFAは迅速に計算されます(約15分)が、潜在因子をS3に書き出すことは約5時間かかります。明らかに、何かが正しくない。問題の特定にご協力いただけますか?
ALSを使用してLFAを計算する際に、100人のユーザーブロックと100個のブロックを使用しています。この情報が関連する場合があります。
100 r3.8xlargeマシンをジョブに使用します。