emr

0熱

2答えて

私はそうのような構造のファイルの非常に迷惑なセットを持っている： userId string, eventType string, source string, errorCode string, startDate timestamp, endDate timestamp 各ファイルは様々で、イベントIDあたりのレコードの任意の数を含むことができeventTypesとsources

0熱

1答えて

AWS S3にアクセスすることはできませんAWS EMR色相S3ファイルブラウザ

私はヒュー・アプリケーションとLDAP認証とEMRを持っています\ n 私はhttp://gethue.com/introducing-s3-support-in-hue/ を以下の午前私は、セットアップLDAPユーザーAWSプロファイルと播種色合いを持っています.iniとawsキー。私のLDAPユーザーは、aws CLIを使用してEMR CLIからs3にアクセスできます。私は色相にログインす

0熱

1答えて

Terraform：EMRクラスタのAMI IDを設定するにはどうすればよいですか？

this doc from terraformを確認した後、各ノードに使用するami idを指定する方法はないようです。私は目立つが、指定されていないオプション（ami =？）を無駄に投げてみました。 "設定"オプションは、基本的なイメージではなく、ハープの設定を変更するためのフックだけを提供するようです。権威ある「いいえ、あなたはテラフォームでこれを行うことはできません」と言っても、どんな助けも

0熱

1答えて

EMRクラスタのコア数を取得する

私はemrクラスタで8CPUを持つスレーブノードにr4.2xの3つのインスタンスを使用しています。クラスタで使用可能なコアの数を調べるにはどうすればよいですか？これを決定するコマンド： grep cores /proc/cpuinfo 私はCPUごとに1つのコアがあると言います。スパークETLジョブのは、それがよりよい.Also上記のコマンドを、クラスタ

0熱

1答えて

EMRクラスタを自動終了するAWSデータパイプラインオプション

データパイプラインを使用してEMRクラスタをセットアップしましたが、ステップ関数のステータスが完了した後にクラスタが終了しています。私はバックグラウンドでスパークジョブを生成する私のステップ関数でPythonスクリプトを実行しています。データパイプラインサービスを使用してEMRで正常なステップ機能を実行した後で、自分のクラスタを使用できるようにするにはどうすればよいですか？

0熱

1答えて

S3に書き込まれたEMRハイブ出力オブジェクトのカスタムACL

set fs.s3.canned.acl = BucketOwnerFullControl;ライン上のは、私は同じようにカスタムACLを持つことができる場合、私は思っていた缶詰ACL（http://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-s3-acls.html）を使用してS3にオブジェクトを書き込むためにEMRのハイブジョブの構成

1熱

1答えて

boto3を使用して既存のEMRクラスタを新しいものにクローズ

boto3を使用して新しいクラスタを作成するとき、既存のクラスタの構成を使用して終了します。私が知る限り、emr_client.run_job_flowはすべての設定（Instances, InstanceFleets etc）をパラメータとして提供する必要があります。 EMRのためにaws consoleから行うことができるように、既存のクラスタからクローンを作成する方法はありますか？私はあな

1熱

2答えて

クラスタサイズが大きいときにスパークジョブが失敗し、小時に成功する

3つの入力を取り込み、2つの外部結合を実行するスパークジョブがあります。データはキー値形式です（String、Array [String]）。コードの最も重要な部分は、次のとおりです。 val partitioner = new HashPartitioner(8000) val joined = inputRdd1.fullOuterJoin(inputRdd2.fullOuterJoin(i

0熱

1答えて

pysparkを使用して寄木張りするcsvは配布されていますか？

AWS EMR master nodeに次のコードスニペットがあり、csvファイルを寄せ木ファイルに変換しています。 %pyspark csv_path = "s3://<bucket>/file.csv" p_path = "s3://<bucket>/file.parquet" df = sqlContext.read.csv(csv_path, header=True, infe

1熱

1答えて

Spark DataFrameの行数がラン間で矛盾しています

EMRでスパークジョブ（バージョン2.1.1）を実行しているとき、各実行でデータフレーム上の異なる行数がカウントされます。私は最初にs3から4つの異なるデータフレームにデータを読み込みました。これらのカウントは、データフレームに結合した後は常に一貫しています。結合の結果には異なるカウントがあります。その後、私は結果をフィルタリングし、それはまた、それぞれの実行で異なるカウントを持っています。バリエ