emr

    1

    1答えて

    emrのスパークステップを試しています。私は入力s3ディレクトリがあります。これは複数のファイルがあります:F1、F2、F3 私はこのようなスパーク工程を追加しています:コードを以下ました aws emr --region us-west-2 add-steps --cluster-id foo --steps '[{"Args":["spark-submit","--deploy-mode","

    0

    1答えて

    私はFlinkを初めて使用していて、私はSocketWindowWordCountの例に従っていました。 私はスカラ座2.11.8とFLINK 1.3.2を使用して、私は次のコードを実行すると、EMR上でそれを実行しようとしています、それはエラーを投げた: Caused by: java.lang.ClassNotFoundException: org.apache.flink.api.commo

    0

    2答えて

    ほとんどのスクリプトは次のような処理をしています。私の処理をwithingグループ化、一切の集約がないため spark.read().csv("s3://") .filter(..).map(...) .write().parquet("s3://"); 火花を指定する方法は、私はメモリ内で行われたすべてのこの仕事をしたいということ、ありますか?これは、ディスクにまったく触

    1

    1答えて

    私はhadoopハイブで実験を行っています。 この実験では、2つの異なるハードウェア設定で同じハイブジョブを実行します。これはAWS EMRでホストされています。 laborder = 40 MB labresult = 150 MB labspecimen = 46 MB このジョブは、約40秒で実行されます:私は、次のデータセットのサイズでこのスクリプトを実行 DROP DATABAS

    0

    1答えて

    私はハイブクエリを実行する私とaws emrセットアップを持っています。 現在、ハードウェアの設定は次のとおりです。 つのマスタ - m3.xlarge 8のvCPU、15ジブメモリ、80 SSD GBストレージ EBSストレージ:なし フィフティーンコアノード - m3.xlarge 8のvCPU、15ジブメモリ、80 SSD GBストレージ EBSストレージ:なし 私のクエリは約500万レコー

    0

    1答えて

    EMRクラスターを使用していて、UDF jarを選択して関数を作成するステップ構成を追加しました。 EMRクラスターが作成され、ハイブCLIからUDF関数を使用できるようになりました。しかし、java jdbcを使用して同じクエリを実行しているときにエラーが発生しています。誰でも私を助けてくれますか? FAILED:SemanticException文をコンパイル中にエラー: - 私は永久的な機能

    1

    1答えて

    私はsparkRコードを書いて、EMRクラスター上でspark-submitまたはsparkRを使用して送信できるかどうか疑問に思っています。 は、私には、例えば、いくつかの方法を試してみました: Error in sparkR.sparkContext(master, appName, sparkHome, sparkConfigMap, : JVM is not ready after 10

    0

    1答えて

    AWS EMR-Sparkでアプリケーションを実行していました。ここでは、スパーク送信ジョブです。 - Arguments : spark-submit --deploy-mode cluster --class com.amazon.JavaSparkPi s3://spark-config-test/SWALiveOrderModelSpark-1.0.assembly.jar s3://sp

    0

    2答えて

    spap(EMRで実行中)のUDFは、uaparserライブラリ(uap-scala)を使用してユーザエージェントからデバイスを解析するscalaで書かれています。小さなセットで作業する場合、それはうまく動作します(5000行)が、大きなセット(2M)で動作すると非常に遅くなります。私は労働者 がどのように私はこれを確立することができUDFドライバで実行されていることを信じていない作るもの、 は私

    -1

    1答えて

    データを読み取り、タプルから2番目の要素を選択するコードを記述しました。 2番目の要素はJSONです。私は列と行としてmarketplaceId、はcustomerIdなどのようなJSONのキーを持つデータフレームを作成したい、今すぐ {"data": {"marketplaceId":7,"customerId":123,"eventTime":1471206800000,"asin":"456