emr

0熱

1答えて

私は9ノードm3.xlarge（8 cpu/15ギガ）のEMRクラスターを持っています。ここで1ノードはマスターで、他の8つはスレーブです。 GraphX接続コンポーネントをチェックする簡単なプログラムを実行しようとしています。私が使用してEMRクラスタ上でjarファイルを提出 def main(args : Array[String]): Unit = { val sparkConf

0熱

1答えて

EMRでApache Sparkのログを減らすには？

AWS EMR上で動作するApache Sparkジョブに関する質問があります。 Sparkジョブを実行するたびに、ログが大量に生成されましたが、私の場合は5〜10GB程度のログサイズでしたが、ログの80％は情報（無駄）です。ログレベルを「警告」に変更して不要なログを避けるためにlog4j2をSparkに使用しましたが、YARNのいくつかのログ、EMRのログのいくつかを一緒にマージして。どのよう

0熱

1答えて

EMRクラスターのマスターで実行している私のpythonジョブが失敗しました。どうすればトラブルシューティングできますか？

私はマスターにsshし、開発のためにコンソールで私のhadoopジョブを実行します。私の仕事は私には意味をなさない多くのJavaスタックトレースで、神秘的な方法で失敗し、以下を参照してください：あなたのPythonコード内のエラーのログで java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed wi

0熱

1答えて

API呼び出しからデータを読み取るためにAmazon EMRを実装するにはどうすればよいですか？

私が見たすべての例は、Javaプログラムにありますか？自分のウェブサイトをナビゲートしている間に、そのユーザーが行ったすべてのAPI呼び出しを調べることで、ユーザーの動作を追跡できるようにします。すべてのAPI呼び出しは、SQLデータベースに格納されたデータに基づいています。たとえば、検索APIに渡されたすべてのキーワードをチェックして、ほとんどの検索用語のリストを表示したいとします。私はO

0熱

1答えて

AWS DataPipeline EMRクラスタ（スパークあり）

EMRテンプレートを使用してAWSデータパイプラインを作成しましたが、EMRクラスタにSparkをインストールしていません。そのために特別な行動を設定する必要はありますか？私はいくつかのbootstrapactionはスパークのインストールの必要性を参照してくださいしかし、それも動作していません。

0熱

1答えて

EMRのhdfs：//パスへのhadoop fsパスの変換

EMRクラスターのHDFSファイルシステムからS3バケットへデータを移動する方法を知りたいと思います。私はSparkのS3に直接書き込むことができると認識していますが、原則として後でそれを行うのも簡単でなければならず、これまで実際にはそうでないことが分かりました。 AWSドキュメントでは、HDFSとS3間でデータを移動する目的で、s3-dist-cpをお勧めします。 s3-dist-cpのdocu

2熱

1答えて

oozieコーディネータでスパークジョブエラー - emr：空の文字列からパスを作成できません

糸クラスターにoozieコーディネーターを設定する際に問題があります。スパークジョブです。コンソールでワークフローを実行すると打ち上げと糸によって正しく実行されますが、私はcoordinator.xmlから同じワークフローを呼び出すとき、私はこのエラーがあります、 ERROR org.apache.spark.SparkContext - Error initializing SparkConte

0熱

1答えて

EMRクラスターでapache sparkジョブのlog4jをカスタマイズする

Javaについては、log4jという使用に関する質問とJava用の構成ファイルlog4j.propertiesがあります。 log4j.propertiesを私のSparkジョブ「jar」ファイルと一緒に添付しました.EMRクラスタに送信すると、アプリケーションはlog4j.propertiesファイルを初期化します。ここでが私のコード例である：それは働く私のローカルマシン上 public st

2熱

2答えて

スパーク、ファットジャーの代替

私はスパークEMRジョブに自分の依存関係を持たせるために少なくとも2つの方法を知っています。 1つはfat jarを作成し、もう1つは--packagesオプションを使用してspark submitで必要なパッケージを指定することです。ファットジャーはジップアップにかなりの時間がかかります。それは普通ですか？〜10分。間違った設定をしている可能性はありますか？コマンドラインオプションは問題あ

0熱

1答えて

Zeppelinでspark-csv依存関係を追加するとネットワークエラーが発生する

Zeppelinでspark-csv依存関係を追加するとネットワークエラーが発生しています。私はZeppelinのSpark通訳に行き、Spark-csvの依存関係を追加しました。 com.databricks:spark-csv_2.10:1.2.0。引数オプションにも追加しました。私はツェッペリンを再起動し、次のコマンドを実行しました： import org.apache.spark.sq