AWS S3データフォーマットAWS Athenaクエリ用ファイル

-1

AWS S3にhttp要求ペイロードを保存し、AWS Athenaを使用してこれらのデータに対してクエリを実行したいとします。ファイル内のどのようなデータフォーマットですか？ここではS3に保存することをおすすめしますか？AWS S3データフォーマットAWS Athenaクエリ用ファイル

JSON、CSV、TSV、Textファイル、Apache ORC、Apache Parquet、圧縮データです。

現在のところ、私はこれらの3つの側面を考慮しています：シリアライズ/デシリアライゼーションの時間、クエリースピード、スペース。

すべてのリンクが歓迎されるかもしれません！ありがとう！

2017-06-11 spooooonl

現在、Athenaは次のファイル形式をサポートしています。

これらの形式を使用するには、Athenaが表の形式を認識できるようにシリアライザ/デシリアライザクラス（SerDe）を指定する必要があります。

Athenaクエリのパフォーマンスを向上させるには、重要な要素はデータを分割することです。データを分割することで、各クエリでスキャンされるデータの量を制限することができ、パフォーマンスが向上し、コストが削減されます。

詳細については、Athena partitioningとfile formatsを参照してください。

2017-06-11 10:14:56 Ashan

逐次化とクエリのパフォーマンスとスペースのために、Apache ParquetとORCが最適です。これらは両方とも、サイズとクエリのパフォーマンスを同時に最適化するためのさまざまなエンコーディングと圧縮技術を使用した円柱データ形式です。

ORCとParquetの選択は、主に使用するツールに依存します。寄木張りがより普及していますが、ORCを使用するとより良いツールが得られるツールもあります。

これらの形式の使用には1つの制約があります。バッチ作業用に最適化されています。つまり、バッチで記述する必要があります。

2017-06-11 13:40:58 xhochy

答えて