emr

    0

    1答えて

    私はAWSCLI、EMRステップを介してEMRにスパークジョブを送信しています。また、スパーク設定は別々のjsonファイルとして提供されています。何らかの理由で、メインクラスの名前が不要なコマンドライン引数としてSpark jarに渡され、失敗したジョブが発生します。 AWSCLIコマンド: [ { "Name": "RunEMRJob", "Jar": "s3://

    0

    1答えて

    私はhadoop EMRクラスタ(5.5.0 - コンポーネント - Hive、Hue)を起動しましたが、SQOOPは起動していません。しかし、今私はmysqlデータベースからクエリとダンプデータをsqoopする必要があります。クラスタはすでにデータ量の多い状態で起動しているので、Sqoopを追加できるかどうかを知りたがっています。 AWS Consoleではこのオプションが表示されません。私は必

    0

    1答えて

    現在、CloudWatchの指標に基づいてEMRクラスターをスケールすることができます。つまり、https://aws.amazon.com/blogs/big-data/dynamically-scale-applications-on-amazon-emr-with-auto-scaling/です。 カスタムCloudWatchメトリックに基づいてオートスケール値を設定できますか? たとえば、

    0

    1答えて

    私はHive on Tezの寄木張りとして格納されたテーブルでカスタムUDAFを実行しています。私たちのHiveジョブはYARN上で実行され、すべてAmazon EMRに設定されています。しかし、私たちが持っている寄木細工のデータが古いバージョンのParquet(1.5)で生成されているため、YARNログをいっぱいにしてジョブが終了する前にディスクの空き領域がなくなるという警告が表示されています。

    0

    1答えて

    私は潜在的に愚かな質問をしています。ローカルでSparkを実行しているときにこの問題を修正しましたが、AWS EMRでSparkを実行しているときに解決できませんでした。 基本的には、データを読み込み、操作し、スパークデータフレームに処理し、AWS RDSの別の場所で既にホストしているMySQLテーブルに書き込むpysparkスクリプトがあります。 これは私がMySQLのコネクタ( "mysqlの

    0

    2答えて

    ステップIDを指定すると、そのAWS EMRステップが完了するまで待つ必要があります。どうすればこれを達成できますか?組み込み関数はありますか? を書いている時点で、EMR用Boto3ウェイターは、クラスタの実行とクラスタの終了イベントを待つことができ: EMR Waiters

    1

    1答えて

    私は、どのように私のpysparkシェル(およびスクリプト)にS3ディレクトリからファイルを読み込むかを理解しました。使用して:それは私がONEディレクトリ内のすべてのファイルを読み込むさせるには素晴らしいことだが、 rdd = sc.wholeTextFiles('s3n://bucketname/dir/*') をしかし、私はすべてのディレクトリからすべての単一のファイルを読むことをお勧め

    0

    1答えて

    私は、デバッグモードをオンにして、EMR(spool)ジョブを実行しています(糸、クラスタモード、一時 - ジョブ終了後にクラスタがシャットダウンします)。すべてのスパーク・ログは期待通りS3にアップロードされているが、私は私自身のカスタムログをアップロードすることはできません... 使用してlog4jの、私はそれはのように思える火花ドキュメントlog4j.appender.algoLog.Fil

    0

    1答えて

    私の "ローカル" hdfs(Amazon弾性マップリダクション)から分割パーケットファイルをコピーしようとしました。私はいつも同じエラーがあります。 私は `` ` s3-dist-cp --src /myparquet --dest s3a://mys3path.com/mydest ` `` を実行したときに、私はこの `` ` 17/07/10 20:42:57 INFO mapred

    0

    1答えて

    色合いノート(AWS EMR v5.5)では、Prestoを使用しようとするとCLASSPATHエラーが発生します。 ログ: File "/usr/lib/hue/build/env/lib64/python2.7/UserDict.py", line 40, in __getitem__ raise KeyError(key) KeyError: 'CLASSPATH' このエラ