がPySparkにRowMatrixメソッドにアクセスすることはできません：columnSimilarities（）、computeColumnSummaryStatisticsを（）

私は特に、この記事で言及columnSimilarities（）関数を関数columnSimilarities（）、computeColumnSummaryStatistics（）がPySparkにRowMatrixメソッドにアクセスすることはできません：columnSimilarities（）、computeColumnSummaryStatisticsを（）

を使用しようとしています：

https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html

私はMLIBからスパースベクトルのリストを使用しています。

sparse_vectors = [] 

for cust, group in df.groupby(0): 

    i_v = zip(group[1].values, group[2].values) 
    i_v = sorted(i_v) 
    indices = [x[0] for x in i_v] 
    values = [x[1] for x in i_v] 
    sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values)) 

rows = sc.parallelize(sparse_vectors) 
mat = RowMatrix(rows)

私はエラーを取得する：

AttributeError: 'RowMatrix' object has no attribute 'computeColumnSummaryStatistics'

または

AttributeError: 'RowMatrix' object has no attribute 'columnSimilarities'

私は関数を実行するたびに。

Scala Sparkではなく、これがPySparkの問題ですか？私はまた、Google検索を通じてRowMatrix関数のページを見つけることもできません。

は、あなたがこれらはPySparkに実装されていません（1.6スパーク）ので、今のように、これらのメソッドにアクセスすることはできませんあなた

出典

2016-03-30 user1340048

ありがとうございます。

IndexedRowMatrix.columnSimilarities（SPARK-12041参照）は現在のマスターで使用できますが、使用するにはソースからSparkをビルドする必要があります。

出典

2016-03-30 22:09:47 zero323

ありがとうございます。私はソースからビルドしていません。 – user1340048

このメソッドはIndexedRowMatrixでのみ機能しますか？またはRowMatrixでも利用できますか？ – user1340048

'IndexedRowMatrix'だけですが、' RowMatrix'でもこのコードを動作させるのは難しくありません。 – zero323

がPySparkにRowMatrixメソッドにアクセスすることはできません：columnSimilarities（）、computeColumnSummaryStatisticsを（）

答えて

関連する問題