2016-12-25 9 views
1

pysparkを使用して、テキストファイル内のデータのカウント値を見つけることができます。しかし、私が望むのは、テキストファイルの数値を合計したいということです。彼はどうすればそれをすることができますか?テキストファイルの一部は、次のようになります。pysparkを使用したテキストファイルの要素の合計

1.3515
1.3475
1.3375
1.3345
1.3315
1.3315

マイコード:

sc = SparkContext(appName="RangeOfDoviz") 
RDD = sc.textFile("/home/andropat/PycharmProjects/sparking/ranges.txt") 

[RESOLVED]

+0

これはかなり簡単にバニラのpythonで行うことができます... pysparkが必要ですか? –

+0

私はPySparkを使ってそれをする必要があります –

+0

私は手足の外に出て、 'RDD.sum()'と言うでしょう –

答えて

0

あなたはスパークを使うことができますDataFrames

from pyspark.sql.types import * 

spark.read \ 
    .schema(StructType([StructField("value", DoubleType())])) \ 
    .text(path) \ 
    .groupBy().sum() \ 
    .first()[0] 

または

from pyspark.sql.functions import col, sum 

spark.read \ 
    .text(path) \ 
    .groupBy().agg(sum(col("value").cast("double"))) \ 
    .first()[0] 

それはより多くのコードが必要ですが、RDDを使用するよりも速くする必要があります。

+0

ありがとう!非常に速いです。 –

関連する問題