pysparkを使用したテキストファイルの要素の合計

pysparkを使用して、テキストファイル内のデータのカウント値を見つけることができます。しかし、私が望むのは、テキストファイルの数値を合計したいということです。彼はどうすればそれをすることができますか？テキストファイルの一部は、次のようになります。pysparkを使用したテキストファイルの要素の合計

1.3515
1.3475
1.3375
1.3345
1.3315
1.3315

マイコード：

sc = SparkContext(appName="RangeOfDoviz") 
RDD = sc.textFile("/home/andropat/PycharmProjects/sparking/ranges.txt")

[RESOLVED]

出典

2016-12-25 mr.android

これはかなり簡単にバニラのpythonで行うことができます... pysparkが必要ですか？ –

私はPySparkを使ってそれをする必要があります –

私は手足の外に出て、 'RDD.sum（）'と言うでしょう –

あなたはスパークを使うことができますDataFrames：

from pyspark.sql.types import * 

spark.read \ 
    .schema(StructType([StructField("value", DoubleType())])) \ 
    .text(path) \ 
    .groupBy().sum() \ 
    .first()[0]

または

from pyspark.sql.functions import col, sum 

spark.read \ 
    .text(path) \ 
    .groupBy().agg(sum(col("value").cast("double"))) \ 
    .first()[0]

それはより多くのコードが必要ですが、RDDを使用するよりも速くする必要があります。

出典

2016-12-25 22:40:51 user7337271

ありがとう！非常に速いです。 –

pysparkを使用したテキストファイルの要素の合計

答えて

関連する問題