0
私はPython spark
に新しいので、この質問は初心者かもしれません。しかし、ここやGoogleで良い答えが見つからないので、とにかく質問します。同じrddの計算に依存してrddに要素を追加する
私は自分のrddにいくつかの計算をすることによって自分のrddにいくつかの要素を追加したいと思います。私のrddは名前付きの行で、文字列を含んでいます。私は、ファイル内にタブで区切られた2つの数字を追加したいと思います。次に、この合計を行rddの最後に追加します。
lines = sc.textFile("myFile.txt")
#Splitting the string where there are tabs
linesArr=lines.map(lambda line: line.split("\t"))
今はlinesArr
に2つの最初のタブを一緒に追加して、行の最後に結果を追加します。
どうすればよいですか?ここで同じことを疑問に思うかもしれません人のために
theSum = linesArr(lambda x:sumFunction(x [0] + x [1])を使用して、最初の2つの要素をまとめました。 – Sindre