emr

    0

    1答えて

    私はEMRクラスターを持っています。私がinfluxDb + Grafanaと神経節を統合したいと思いテラフォームスクリプト resource "aws_emr_cluster" "emr-test" { name = "emr-test" applications = [..., "Ganglia", ...] ... } によって設定されています。構成の例が

    0

    1答えて

    AWS docsは、このプロパティが「ジョブフローステップ実行時に設定されるJavaプロパティのリストです。これらのプロパティを使用して、JARファイルのメイン関数にキーと値のペアを渡すことができます。 しかし、どのように正確にそれらが渡されたか、主要な機能側でキーと値のペアのコレクションに正しくアクセスする方法については説明がありません(少なくとも、私は何も見つかりませんでした)。 クイックチェ

    0

    2答えて

    私はSparkアプリケーションをEMR上で実行しており、いくつかのprintln()ステートメントがあります。コンソール以外では、これらのステートメントはどこに記録されますか?私クラスタの マイS3 AWS-logsディレクトリ構造は次のようになります。 node ├── i-0031cd7a536a42g1e │   ├── applications │   ├── bootstrap-acti

    0

    1答えて

    私は、HiveとEMRを使用してS3アクセスログを分割するthis blog postに従っています。私は大丈夫アクセスログの小さなバケツに対してこのスクリプトを実行することができましたが、テーブルの作成、大きなバケツ(〜1.5 TB)の上に、次のエラーで失敗します FAILED: Execution Error, return code 1 from org.apache.hadoop.hive

    0

    1答えて

    3つの出力ファイルを作成するプログラムを作成するHadoop 2.6.5を使用しています。 ローカルを実行すると、プログラムはうまく動作し、3つの出力ファイルを作成します。 EMRで実行すると、この行がクラッシュする - ファイルが既に存在する:O EMRでHadoopを使用する方法ではないことを理解しています。私はこの記事を見てきました : https://forums.aws.amazon.c

    0

    1答えて

    私は輸入がnumpyのことをAWS EMR上でPythonスクリプトを提出しようとしているが、私は ImportError: No module named numpy を得る私はここでの回答のいずれかを使用してみました:No module named numpy when spark-submitting。 私は sudo yum install python-numpy python-sc

    0

    1答えて

    AWS EMRのリソースマネージャーでHAを有効にする方法を知りたいと思います。同様にEMRにセカンダリネームノードを持つ方法

    0

    1答えて

    EMRでスパーク・アプリケーションを実行しています。スパーク履歴のUIでは、environmentタブのspark.executor.instancesは1になります。ただし、executorsタブの下には、1ドライバを含む合計9エグゼキュータがあることが示されています。 どうしてですか?

    1

    1答えて

    s3-dist-cpツールを使用して寄木細工のファイル(スナッピー圧縮)をマージすることが可能かどうか疑問に思うだけです。私は "--groupBy"と " - targetSize"オプションを試して、小さなファイルを大きなファイルにマージしました。しかし、私はSparkやAWS Athenaでそれらを読むことはできません。すべてのヘルプは高く評価され HIVE_CURSOR_ERROR: Ex

    5

    1答えて

    エアフローでは、job_flow_idをemr-stepsの1つに渡す必要があるという問題に直面しています。私はオペレータからjob_flow_idを取得することができますが、クラスタに送信するステップを作成するときには、task_instanceの値が正しくありません。 def issue_step(name, args): return [ { "Name"