emr

0熱

1答えて

私はEMRクラスターを持っています。私がinfluxDb + Grafanaと神経節を統合したいと思いテラフォームスクリプト resource "aws_emr_cluster" "emr-test" { name = "emr-test" applications = [..., "Ganglia", ...] ... } によって設定されています。構成の例が

0熱

1答えて

HadoopJarStepConfig.StepPropertiesの使用方法は？

AWS docsは、このプロパティが「ジョブフローステップ実行時に設定されるJavaプロパティのリストです。これらのプロパティを使用して、JARファイルのメイン関数にキーと値のペアを渡すことができます。しかし、どのように正確にそれらが渡されたか、主要な機能側でキーと値のペアのコレクションに正しくアクセスする方法については説明がありません（少なくとも、私は何も見つかりませんでした）。クイックチェ

0熱

2答えて

EMRはどこでスパークを保存しますか？

私はSparkアプリケーションをEMR上で実行しており、いくつかのprintln（）ステートメントがあります。コンソール以外では、これらのステートメントはどこに記録されますか？私クラスタのマイS3 AWS-logsディレクトリ構造は次のようになります。 node ├── i-0031cd7a536a42g1e │ ├── applications │ ├── bootstrap-acti

0熱

1答えて

Hiveテーブル、フレークなメタストア接続を作成できません

私は、HiveとEMRを使用してS3アクセスログを分割するthis blog postに従っています。私は大丈夫アクセスログの小さなバケツに対してこのスクリプトを実行することができましたが、テーブルの作成、大きなバケツ（〜1.5 TB）の上に、次のエラーで失敗します FAILED: Execution Error, return code 1 from org.apache.hadoop.hive

0熱

1答えて

EMRでMultipleOutputsを使用するHadoop JAVA

3つの出力ファイルを作成するプログラムを作成するHadoop 2.6.5を使用しています。ローカルを実行すると、プログラムはうまく動作し、3つの出力ファイルを作成します。 EMRで実行すると、この行がクラッシュする - ファイルが既に存在する：O EMRでHadoopを使用する方法ではないことを理解しています。私はこの記事を見てきました： https://forums.aws.amazon.c

0熱

1答えて

AWSスパークEMR numpyのインポートエラー

私は輸入がnumpyのことをAWS EMR上でPythonスクリプトを提出しようとしているが、私は ImportError: No module named numpy を得る私はここでの回答のいずれかを使用してみました：No module named numpy when spark-submitting。私は sudo yum install python-numpy python-sc

0熱

1答えて

AWS EMRにHAのリソースマネージャがありますか？

AWS EMRのリソースマネージャーでHAを有効にする方法を知りたいと思います。同様にEMRにセカンダリネームノードを持つ方法

0熱

1答えて

スパーク環境パラメータがエグゼキュータと一致しない理由を教えてください。

EMRでスパーク・アプリケーションを実行しています。スパーク履歴のUIでは、environmentタブのspark.executor.instancesは1になります。ただし、executorsタブの下には、1ドライバを含む合計9エグゼキュータがあることが示されています。どうしてですか？

1熱

1答えて

s3-dist-cpを使用して寄せ木細工のファイルをマージする

s3-dist-cpツールを使用して寄木細工のファイル（スナッピー圧縮）をマージすることが可能かどうか疑問に思うだけです。私は "--groupBy"と " - targetSize"オプションを試して、小さなファイルを大きなファイルにマージしました。しかし、私はSparkやAWS Athenaでそれらを読むことはできません。すべてのヘルプは高く評価され HIVE_CURSOR_ERROR: Ex

5熱

1答えて

エアフロー - EMRオペレータのタスクインスタンス

エアフローでは、job_flow_idをemr-stepsの1つに渡す必要があるという問題に直面しています。私はオペレータからjob_flow_idを取得することができますが、クラスタに送信するステップを作成するときには、task_instanceの値が正しくありません。 def issue_step(name, args): return [ { "Name"