emr

    0

    2答えて

    私はそうのような構造のファイルの非常に迷惑なセットを持っている: userId string, eventType string, source string, errorCode string, startDate timestamp, endDate timestamp 各ファイルは様々で、イベントIDあたりのレコードの任意の数を含むことができeventTypesとsources

    0

    1答えて

    私はヒュー・アプリケーションとLDAP認証とEMRを持っています\ n 私はhttp://gethue.com/introducing-s3-support-in-hue/ を以下の午前私は、セットアップLDAPユーザーAWSプロファイルと播種色合いを持っています.iniとawsキー。 私のLDAPユーザーは、aws CLIを使用してEMR CLIからs3にアクセスできます。 私は色相にログインす

    0

    1答えて

    this doc from terraformを確認した後、各ノードに使用するami idを指定する方法はないようです。私は目立つが、指定されていないオプション(ami =?)を無駄に投げてみました。 "設定"オプションは、基本的なイメージではなく、ハープの設定を変更するためのフックだけを提供するようです。権威ある「いいえ、あなたはテラフォームでこれを行うことはできません」と言っても、どんな助けも

    0

    1答えて

    私はemrクラスタで8CPUを持つスレーブノードにr4.2xの3つのインスタンスを使用しています。クラスタで使用可能なコアの数を調べるにはどうすればよいですか?これを決定するコマンド: grep cores /proc/cpuinfo 私はCPUごとに1つのコアがあると言います。スパークETLジョブの は、それがよりよい.Also上記のコマンドを、クラスタ

    0

    1答えて

    データパイプラインを使用してEMRクラスタをセットアップしましたが、ステップ関数のステータスが完了した後にクラスタが終了しています。私はバックグラウンドでスパークジョブを生成する私のステップ関数でPythonスクリプトを実行しています。 データパイプラインサービスを使用してEMRで正常なステップ機能を実行した後で、自分のクラスタを使用できるようにするにはどうすればよいですか?

    0

    1答えて

    set fs.s3.canned.acl = BucketOwnerFullControl;ライン上の は、私は同じようにカスタムACLを持つことができる場合、私は思っていた缶詰ACL(http://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-s3-acls.html) を使用してS3にオブジェクトを書き込むためにEMRのハイブジョブの構成

    1

    1答えて

    boto3を使用して新しいクラスタを作成するとき、既存のクラスタの構成を使用して終了します。 私が知る限り、emr_client.run_job_flowはすべての設定(Instances, InstanceFleets etc)をパラメータとして提供する必要があります。 EMRのためにaws consoleから行うことができるように、既存のクラスタからクローンを作成する方法はありますか?私はあな

    1

    2答えて

    3つの入力を取り込み、2つの外部結合を実行するスパークジョブがあります。データはキー値形式です(String、Array [String])。コードの最も重要な部分は、次のとおりです。 val partitioner = new HashPartitioner(8000) val joined = inputRdd1.fullOuterJoin(inputRdd2.fullOuterJoin(i

    0

    1答えて

    AWS EMR master nodeに次のコードスニペットがあり、csvファイルを寄せ木ファイルに変換しています。 %pyspark csv_path = "s3://<bucket>/file.csv" p_path = "s3://<bucket>/file.parquet" df = sqlContext.read.csv(csv_path, header=True, infe

    1

    1答えて

    EMRでスパークジョブ(バージョン2.1.1)を実行しているとき、各実行でデータフレーム上の異なる行数がカウントされます。私は最初にs3から4つの異なるデータフレームにデータを読み込みました。これらのカウントは、データフレームに結合した後は常に一貫しています。結合の結果には異なるカウントがあります。その後、私は結果をフィルタリングし、それはまた、それぞれの実行で異なるカウントを持っています。バリエ