emr

    0

    1答えて

    私は9ノードm3.xlarge(8 cpu/15ギガ)のEMRクラスターを持っています。ここで1ノードはマスターで、他の8つはスレーブです。 GraphX接続コンポーネントをチェックする簡単なプログラムを実行しようとしています。私が使用してEMRクラスタ上でjarファイルを提出 def main(args : Array[String]): Unit = { val sparkConf

    0

    1答えて

    AWS EMR上で動作するApache Sparkジョブに関する質問があります。 Sparkジョブを実行するたびに、ログが大量に生成されましたが、私の場合は5〜10GB程度のログサイズでしたが、ログの80%は情報(無駄)です。 ログレベルを「警告」に変更して不要なログを避けるためにlog4j2をSparkに使用しましたが、YARNのいくつかのログ、EMRのログのいくつかを一緒にマージして。どのよう

    0

    1答えて

    私はマスターにsshし、開発のためにコンソールで私のhadoopジョブを実行します。私の仕事は私には意味をなさない多くのJavaスタックトレースで、神秘的な方法で失敗し、以下を参照してください:あなたのPythonコード内のエラーのログで java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed wi

    0

    1答えて

    私が見たすべての例は、Javaプログラムにありますか? 自分のウェブサイトをナビゲートしている間に、そのユーザーが行ったすべてのAPI呼び出しを調べることで、ユーザーの動作を追跡できるようにします。すべてのAPI呼び出しは、SQLデータベースに格納されたデータに基づいています。 たとえば、検索APIに渡されたすべてのキーワードをチェックして、ほとんどの検索用語のリストを表示したいとします。 私はO

    0

    1答えて

    EMRテンプレートを使用してAWSデータパイプラインを作成しましたが、EMRクラスタにSparkをインストールしていません。そのために特別な行動を設定する必要はありますか? 私はいくつかのbootstrapactionはスパークのインストールの必要性を参照してくださいしかし、それも動作していません。

    0

    1答えて

    EMRクラスターのHDFSファイルシステムからS3バケットへデータを移動する方法を知りたいと思います。私はSparkのS3に直接書き込むことができると認識していますが、原則として後でそれを行うのも簡単でなければならず、これまで実際にはそうでないことが分かりました。 AWSドキュメントでは、HDFSとS3間でデータを移動する目的で、s3-dist-cpをお勧めします。 s3-dist-cpのdocu

    2

    1答えて

    糸クラスターにoozieコーディネーターを設定する際に問題があります。スパークジョブです。コンソールでワークフローを実行すると打ち上げと糸によって正しく実行されますが、私はcoordinator.xmlから同じワークフローを呼び出すとき、私はこのエラーがあります、 ERROR org.apache.spark.SparkContext - Error initializing SparkConte

    0

    1答えて

    Javaについては、log4jという使用に関する質問とJava用の構成ファイルlog4j.propertiesがあります。 log4j.propertiesを私のSparkジョブ「jar」ファイルと一緒に添付しました.EMRクラスタに送信すると、アプリケーションはlog4j.propertiesファイルを初期化します。ここで が私のコード例である:それは働く私のローカルマシン上 public st

    2

    2答えて

    私はスパークEMRジョブに自分の依存関係を持たせるために少なくとも2つの方法を知っています。 1つはfat jarを作成し、もう1つは--packagesオプションを使用してspark submitで必要なパッケージを指定することです。 ファットジャーはジップアップにかなりの時間がかかります。それは普通ですか? 〜10分。間違った設定をしている可能性はありますか? コマンドラインオプションは問題あ

    0

    1答えて

    Zeppelinでspark-csv依存関係を追加するとネットワークエラーが発生しています。 私はZeppelinのSpark通訳に行き、Spark-csvの依存関係を追加しました。 com.databricks:spark-csv_2.10:1.2.0。引数オプションにも追加しました。 私はツェッペリンを再起動し、次のコマンドを実行しました: import org.apache.spark.sq