apache-spark-1.3

1熱

1答えて

HiveテーブルにScala + Spark 1.3をインクリメントして追加します。

クラスタにSpark 1.3とHiveがありますランダムに選択した行を追加する必要がある大きなHiveテーブルがあります。条件を満たしていれば、読み込んだ小さなテーブルがあります。条件が満たされていれば、入力するランダムな行を照会するために必要な変数を取得します。私がしたことは、その条件の問い合わせをtable.where(value<number)とし、それをtake(num rows)を使

14熱

3答えて

SparkがGetMapOutputStatusesを送信しようとすると "MapOutputTrackerとの通信エラー"が報告されるのはなぜですか？

私はSpark 1.3を使用して、多くのデータに対して集計を行っています。ジョブは4つのステップで構成されていますは、そのほとんどをフィルタリングし、シャッフル keyBy顧客を書くの約1GB取得ビッグ（1TB）シーケンスファイル（データの1日に相当）を読みますカスタマーごとのHashMap [Long、Float]に対応する、その顧客のプロファイルを作成するカスタム構造体へのaggrega

7熱

1答えて

Scope of 'spark.driver.maxResultSize'

私はSparkジョブを実行してデータを集約しています。私は基本的にmutable.HashMap[Zone, Double]を含むプロファイルと呼ばれるカスタムデータ構造を持っています。私は次のコードを使用して、与えられたキー（UUID）を共有するすべてのプロファイルをマージしたい： def merge = (up1: Profile, up2: Profile) => { up1.addWeig

1熱

1答えて

RDD.saveAsTextFileの後の空のファイルは何ですか？

私は、Spark Learningの例をいくつか取り上げ、Lightning Fast Data Analysisを使って自分の開発を追加しています。基本的な変換と動作を見るためにこのクラスを作成しました。ここで /** * Find errors in a log file */ package com.oreilly.learningsparkexamples.mini.java;

0熱

2答えて

Sparkでは、インデックスの代わりに名前自体でフィールドを読み取るには

私はSpark 1.3を使用します。私のデータは50以上の属性を持っているため、私はカスタムクラスに行きました。私はここでその位置ではない、その名前でカスタムクラスから、私はメソッドを呼び出す必要があるたびに、フィールドにアクセスするにはどうすればよいは（0）また私はケースを使用することになっておりませんproductElementしたがって、私はスキーマのカスタムクラスを使用しています。