emr

1熱

1答えて

emrのスパークステップを試しています。私は入力s3ディレクトリがあります。これは複数のファイルがあります：F1、F2、F3 私はこのようなスパーク工程を追加しています：コードを以下ました aws emr --region us-west-2 add-steps --cluster-id foo --steps '[{"Args":["spark-submit","--deploy-mode","

0熱

1答えて

Flink Scala ClassNotFoundException：org.apache.flink.api.common.typeinfo.TypeInformation

私はFlinkを初めて使用していて、私はSocketWindowWordCountの例に従っていました。私はスカラ座2.11.8とFLINK 1.3.2を使用して、私は次のコードを実行すると、EMR上でそれを実行しようとしています、それはエラーを投げた： Caused by: java.lang.ClassNotFoundException: org.apache.flink.api.commo

0熱

2答えて

スパークの使用s3から読み込み、s3から書き込むことはできますか？

ほとんどのスクリプトは次のような処理をしています。私の処理をwithingグループ化、一切の集約がないため spark.read().csv("s3://") .filter(..).map(...) .write().parquet("s3://"); 火花を指定する方法は、私はメモリ内で行われたすべてのこの仕事をしたいということ、ありますか？これは、ディスクにまったく触

1熱

1答えて

AWS EMRでHadoopハイブスケーリングを行わない

私はhadoopハイブで実験を行っています。この実験では、2つの異なるハードウェア設定で同じハイブジョブを実行します。これはAWS EMRでホストされています。 laborder = 40 MB labresult = 150 MB labspecimen = 46 MB このジョブは、約40秒で実行されます：私は、次のデータセットのサイズでこのスクリプトを実行 DROP DATABAS

0熱

1答えて

aws emrでハイブクエリを実行するとデバイスに残っているスペースを解決する方法

私はハイブクエリを実行する私とaws emrセットアップを持っています。現在、ハードウェアの設定は次のとおりです。つのマスタ - m3.xlarge 8のvCPU、15ジブメモリ、80 SSD GBストレージ EBSストレージ：なしフィフティーンコアノード - m3.xlarge 8のvCPU、15ジブメモリ、80 SSD GBストレージ EBSストレージ：なし私のクエリは約500万レコー

0熱

1答えて

java JDBCを使用してUDF関数が機能しない

EMRクラスターを使用していて、UDF jarを選択して関数を作成するステップ構成を追加しました。 EMRクラスターが作成され、ハイブCLIからUDF関数を使用できるようになりました。しかし、java jdbcを使用して同じクエリを実行しているときにエラーが発生しています。誰でも私を助けてくれますか？ FAILED：SemanticException文をコンパイル中にエラー： - 私は永久的な機能

1熱

1答えて

EMRクラスタでspark-submitまたはsparkRを使用してSparkRスクリプトを実行するにはどうすればよいですか？

私はsparkRコードを書いて、EMRクラスター上でspark-submitまたはsparkRを使用して送信できるかどうか疑問に思っています。は、私には、例えば、いくつかの方法を試してみました： Error in sparkR.sparkContext(master, appName, sparkHome, sparkConfigMap, : JVM is not ready after 10

0熱

1答えて

AWS EMR Spark- Cloudwatch

AWS EMR-Sparkでアプリケーションを実行していました。ここでは、スパーク送信ジョブです。 - Arguments : spark-submit --deploy-mode cluster --class com.amazon.JavaSparkPi s3://spark-config-test/SWALiveOrderModelSpark-1.0.assembly.jar s3://sp

0熱

2答えて

SparkのUDFは非常に遅いです

spap（EMRで実行中）のUDFは、uaparserライブラリ（uap-scala）を使用してユーザエージェントからデバイスを解析するscalaで書かれています。小さなセットで作業する場合、それはうまく動作します（5000行）が、大きなセット（2M）で動作すると非常に遅くなります。私は労働者がどのように私はこれを確立することができUDFドライバで実行されていることを信じていない作るもの、は私

-1熱

1答えて

JsonキーをSparkの列に変換する

データを読み取り、タプルから2番目の要素を選択するコードを記述しました。 2番目の要素はJSONです。私は列と行としてmarketplaceId、はcustomerIdなどのようなJSONのキーを持つデータフレームを作成したい、今すぐ {"data": {"marketplaceId":7,"customerId":123,"eventTime":1471206800000,"asin":"456