Spark DataFrame mapPartitions

DataFrameのチャンクで任意の（SQLではない）ロジックを呼び出すSpark DataFrameで分散計算を進める必要があります。私がやった：私が代わりに私が「itertools.chain」しまった、各マップ呼び出し内スパークデータフレームのオブジェクトを持つことが期待Spark DataFrame mapPartitions

AttributeError: 'itertools.chain' object has no attribute 'toPandas'

：

def some_func(df_chunk): 
    pan_df = df_chunk.toPandas() 
    #whatever logic here 

df = sqlContext.read.parquet(...) 
result = df.mapPartitions(some_func)

は生憎それはにつながります。どうして？そしてこれを克服する方法は？

出典

2016-08-03 Иван Судос

PySparkはmapPartitionにデータを渡すためにitertools.chainを使用しているので、あなたはそれが認識されない関数にこのオブジェクトを渡しています。 –

はこれを試してみてください：

>>> columns = df.columns 
>>> df.rdd.mapPartitions(lambda iter: [pd.DataFrame(list(iter), columns=columns)])

出典

2016-08-03 16:44:07

Spark DataFrame mapPartitions

答えて

関連する問題