2016-03-30 12 views
4

私は特に、この記事で言及columnSimilarities()関数を関数columnSimilarities()、computeColumnSummaryStatistics()がPySparkにRowMatrixメソッドにアクセスすることはできません:columnSimilarities()、computeColumnSummaryStatisticsを()

  • を使用しようとしています:

https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html

私はMLIBからスパースベクトルのリストを使用しています。

sparse_vectors = [] 

for cust, group in df.groupby(0): 

    i_v = zip(group[1].values, group[2].values) 
    i_v = sorted(i_v) 
    indices = [x[0] for x in i_v] 
    values = [x[1] for x in i_v] 
    sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values)) 

rows = sc.parallelize(sparse_vectors) 
mat = RowMatrix(rows) 

私はエラーを取得する:

AttributeError: 'RowMatrix' object has no attribute 'computeColumnSummaryStatistics'

または

AttributeError: 'RowMatrix' object has no attribute 'columnSimilarities'

私は関数を実行するたびに。

Scala Sparkではなく、これがPySparkの問題ですか?私はまた、Google検索を通じてRowMatrix関数のページを見つけることもできません。

は、あなたがこれらはPySparkに実装されていません(1.6スパーク)ので、今のように、これらのメソッドにアクセスすることはできませんあなた

答えて

2

ありがとうございます。

IndexedRowMatrix.columnSimilaritiesSPARK-12041参照)は現在のマスターで使用できますが、使用するにはソースからSparkをビルドする必要があります。

+0

ありがとうございます。私はソースからビルドしていません。 – user1340048

+0

このメソッドはIndexedRowMatrixでのみ機能しますか?またはRowMatrixでも利用できますか? – user1340048

+0

'IndexedRowMatrix'だけですが、' RowMatrix'でもこのコードを動作させるのは難しくありません。 – zero323

関連する問題