emr

    1

    2答えて

    S3に、改行で区切られたJSONの行が多数含まれているファイルがあります。これらのファイルを消費するColumnar形式に変換したいAWS Athena これを行うにはConverting to Columnar Formats guideに従っていますが、ORCに変換するとS3のパーティションの規則が失われます。 この例では、dtパーティションを変換された寄木細工s3フォルダ構造に保存するにはど

    3

    1答えて

    私はこのようになりますS3におけるORCのデータがあります。 s3://bucket/orc/clientId=client-1/year=2017/month=3/day=16/hour=20/ s3://bucket/orc/clientId=client-2/year=2017/month=3/day=16/hour=21/ s3://bucket/orc/clientId=client

    0

    1答えて

    EMRマスターノードでハイブを走らせましたが、EMRタスク/スレーブノードでハイブコマンドラインを実行する必要があります。 誰でもどのようにしたらいいのでしょうか?ありがとう!

    1

    1答えて

    データパイプラインを使用してSparkアプリケーションを実行しようとしています。私のSparkアプリケーション内でEmrActivityに指定した入出力(S3DataNode)にどのようにアクセスできますか? 私の質問はこれに似ている - https://forums.aws.amazon.com/message.jspa?messageID=507877 以前の私はステップでスパークアプリケーシ

    0

    1答えて

    zeppelin-env.sh,zeppelin-site.xmlまたはtmux.confなど、EMRクラスタで変更した設定ファイルがいくつかあります。 各ファイルには、わずかな変更がありますが、いくつかの行を追加します(export行)。私はそれらのconfsに満足しています、そして、今私は彼らがすべてスタートアップにそこにいて欲しいです。 これらのconfファイルを私のS3とaws cpブート

    0

    2答えて

    これは私のシナリオです 私はスパークでaws愛好家です。私はこの技術についてもっと理解するのが嫌です。 ケース1:私のsparkアプリケーションはEMRクラスタ上で動作し、sparkアプリケーション はs3テーブルのハイブから読み込み、s3のハイブテーブルに書き込みます。この場合、S3バケットは同じユーザーuseraに属していますので、設定ファイルにfs.s3.awsAccessKeyIdとfs.

    2

    1答えて

    amd emrで標準hdfsを使用してスパークジョブを実行していますが、S3ではファイルを保存できません。私はhdfs:// user/hive/warehouse /にハイブテーブルを持っていますが、スパークジョブが実行されたときには見つかりません。糸のログが言う間、私は私のHDFSディレクトリのそれを反映するために、スパークプロパティspark.sql.warehouse.dirを設定し、:

    0

    1答えて

    私のアプリケーションでは、EMRスパークジョブを使用してリアルタイムでデータを処理する必要があります。 私はLambdaのEMRのaddJobFlowSteps APIを使用していますが、本質的にシーケンシャルです。 ラムダからEMRにジョブを提出する他の方法はありますか?

    0

    1答えて

    AWS S3バケットにXMLファイルが格納されています。 XMLメタデータを抽出し、HDFSのHIVEテーブルにロードしたいと考えています。この活動を促進するのに役立つツールはありますか?

    1

    1答えて

    私はHiveでUDFを実行しようとしています。これは基本的に別の引数としてtableの値を使用して外部csvファイルをスキャンする必要があります。私が使用 クエリ: add jar s3://bucket_name/udf/hiveudf.jar; add FILE hdfs:///myfile/myfile.csv; CREATE TEMPORARY FUNCTION MyFunc AS '