emr

1熱

2答えて

AWSのHive：S3 JSONをColumnarの保存パーティションに変換する

S3に、改行で区切られたJSONの行が多数含まれているファイルがあります。これらのファイルを消費するColumnar形式に変換したいAWS Athena これを行うにはConverting to Columnar Formats guideに従っていますが、ORCに変換するとS3のパーティションの規則が失われます。この例では、dtパーティションを変換された寄木細工s3フォルダ構造に保存するにはど

3熱

1答えて

AWS Athena：「msck修理テーブル」に費用がかかりますか？

私はこのようになりますS3におけるORCのデータがあります。 s3://bucket/orc/clientId=client-1/year=2017/month=3/day=16/hour=20/ s3://bucket/orc/clientId=client-2/year=2017/month=3/day=16/hour=21/ s3://bucket/orc/clientId=client

0熱

1答えて

EMRタスク/スレーブノードにhiveをインストールするにはどうすればいいですか？

EMRマスターノードでハイブを走らせましたが、EMRタスク/スレーブノードでハイブコマンドラインを実行する必要があります。誰でもどのようにしたらいいのでしょうか？ありがとう！

1熱

1答えて

EmrActivityの入力/出力 - AWSデータパイプ

データパイプラインを使用してSparkアプリケーションを実行しようとしています。私のSparkアプリケーション内でEmrActivityに指定した入出力（S3DataNode）にどのようにアクセスできますか？私の質問はこれに似ている - https://forums.aws.amazon.com/message.jspa?messageID=507877 以前の私はステップでスパークアプリケーシ

0熱

1答えて

EMR起動時にAWS設定を設定する

zeppelin-env.sh,zeppelin-site.xmlまたはtmux.confなど、EMRクラスタで変更した設定ファイルがいくつかあります。各ファイルには、わずかな変更がありますが、いくつかの行を追加します（export行）。私はそれらのconfsに満足しています、そして、今私は彼らがすべてスタートアップにそこにいて欲しいです。これらのconfファイルを私のS3とaws cpブート

0熱

2答えて

S3マルチawsユーザーのハイブとスパーク

これは私のシナリオです私はスパークでaws愛好家です。私はこの技術についてもっと理解するのが嫌です。ケース1：私のsparkアプリケーションはEMRクラスタ上で動作し、sparkアプリケーションはs3テーブルのハイブから読み込み、s3のハイブテーブルに書き込みます。この場合、S3バケットは同じユーザーuseraに属していますので、設定ファイルにfs.s3.awsAccessKeyIdとfs.

2熱

1答えて

pyspark.sql.utils.AnalysisException：u'Pathが存在しません

amd emrで標準hdfsを使用してスパークジョブを実行していますが、S3ではファイルを保存できません。私はhdfs：// user/hive/warehouse /にハイブテーブルを持っていますが、スパークジョブが実行されたときには見つかりません。糸のログが言う間、私は私のHDFSディレクトリのそれを反映するために、スパークプロパティspark.sql.warehouse.dirを設定し、：

0熱

1答えて

ラムダからEMRでスパークジョブを同時に送信

私のアプリケーションでは、EMRスパークジョブを使用してリアルタイムでデータを処理する必要があります。私はLambdaのEMRのaddJobFlowSteps APIを使用していますが、本質的にシーケンシャルです。ラムダからEMRにジョブを提出する他の方法はありますか？

0熱

1答えて

ハイブを使用してS3 XMLファイルクエリを読み取る方法

AWS S3バケットにXMLファイルが格納されています。 XMLメタデータを抽出し、HDFSのHIVEテーブルにロードしたいと考えています。この活動を促進するのに役立つツールはありますか？

1熱

1答えて

HiveはEMRの分散キャッシュからファイルを見つけることができません

私はHiveでUDFを実行しようとしています。これは基本的に別の引数としてtableの値を使用して外部csvファイルをスキャンする必要があります。私が使用クエリ： add jar s3://bucket_name/udf/hiveudf.jar; add FILE hdfs:///myfile/myfile.csv; CREATE TEMPORARY FUNCTION MyFunc AS '