apache-spark-1.3

    1

    1答えて

    クラスタにSpark 1.3とHiveがあります ランダムに選択した行を追加する必要がある大きなHiveテーブルがあります。 条件を満たしていれば、読み込んだ小さなテーブルがあります。条件が満たされていれば、入力するランダムな行を照会するために必要な変数を取得します。私がしたことは、その条件の問い合わせをtable.where(value<number)とし、それをtake(num rows)を使

    14

    3答えて

    私はSpark 1.3を使用して、多くのデータに対して集計を行っています。ジョブは4つのステップで構成されています は、そのほとんどをフィルタリングし、シャッフル keyBy顧客を書くの約1GB取得ビッグ(1TB)シーケンスファイル(データの1日に相当) を読みます カスタマーごとのHashMap [Long、Float]に対応する、その顧客のプロファイルを作成するカスタム構造体へのaggrega

    7

    1答えて

    私はSparkジョブを実行してデータを集約しています。私は基本的にmutable.HashMap[Zone, Double]を含むプロファイルと呼ばれるカスタムデータ構造を持っています。私は次のコードを使用して、与えられたキー(UUID)を共有するすべてのプロファイルをマージしたい: def merge = (up1: Profile, up2: Profile) => { up1.addWeig

    1

    1答えて

    私は、Spark Learningの例をいくつか取り上げ、Lightning Fast Data Analysisを使って自分の開発を追加しています。 基本的な変換と動作を見るためにこのクラスを作成しました。ここで /** * Find errors in a log file */ package com.oreilly.learningsparkexamples.mini.java;

    0

    2答えて

    私はSpark 1.3を使用します。 私のデータは50以上の属性を持っているため、私はカスタムクラスに行きました。私はここでその位置 ではない、その名前でカスタムクラスから、私はメソッドを呼び出す必要があるたびに、フィールドにアクセスするにはどうすればよい は(0)また 私はケースを使用することになっておりませんproductElementしたがって、私はスキーマのカスタムクラスを使用しています。