dataframe
を繰り返し実行する必要があります。これは、forループを使用して値のセットを反復処理できるようにpySparkを使用することです。以下は私が書いたコードです。このコードの問題は、私は私が私が持っていたら、私はループを壊すことができない機能にfuncRowIter
pySparkを使用してデータフレームの各行を反復する
- です一致が見つかりました。
私はpySparkでそれをしなければならないし、このためにパンダを使用することはできません。
from pyspark.sql.functions import *
from pyspark.sql import HiveContext
from pyspark.sql import functions
from pyspark.sql import DataFrameWriter
from pyspark.sql.readwriter import DataFrameWriter
from pyspark import SparkContext
sc = SparkContext()
hive_context = HiveContext(sc)
tab = hive_context.sql("select * from update_poc.test_table_a")
tab.registerTempTable("tab")
print type(tab)
df = tab.rdd
def funcRowIter(rows):
print type(rows)
if(rows.id == "1"):
return 1
df_1 = df.map(funcRowIter).collect()
print df_1
の何百万人をすなわち)だって収集並列処理を中断します –