2017-06-11 3 views
-1

AWS S3にhttp要求ペイロードを保存し、AWS Athenaを使用してこれらのデータに対してクエリを実行したいとします。ファイル内のどのようなデータフォーマットですか?ここではS3に保存することをおすすめしますか?AWS S3データフォーマットAWS Athenaクエリ用ファイル

JSON、CSV、TSV、Textファイル、Apache ORC、Apache Parquet、圧縮データです。

現在のところ、私はこれらの3つの側面を考慮しています:シリアライズ/デシリアライゼーションの時間、クエリースピード、スペース。

すべてのリンクが歓迎されるかもしれません!ありがとう!

答えて

0

現在、Athenaは次のファイル形式をサポートしています。

  • アブロ
  • CloudTrail
  • CSV(OpenCSVSerDe)
  • TSV
  • 寄木Serde
  • ORC
  • JSON
  • のApache Webサーバーのログ(RegexSerDe)
  • カスタム区切り文字

これらの形式を使用するには、Athenaが表の形式を認識できるようにシリアライザ/デシリアライザクラス(SerDe)を指定する必要があります。

Athenaクエリのパフォーマンスを向上させるには、重要な要素はデータを分割することです。データを分割することで、各クエリでスキャンされるデータの量を制限することができ、パフォーマンスが向上し、コストが削減されます。

詳細については、Athena partitioningfile formatsを参照してください。

0

逐次化とクエリのパフォーマンスとスペースのために、Apache ParquetとORCが最適です。これらは両方とも、サイズとクエリのパフォーマンスを同時に最適化するためのさまざまなエンコーディングと圧縮技術を使用した円柱データ形式です。

ORCとParquetの選択は、主に使用するツールに依存します。寄木張りがより普及していますが、ORCを使用するとより良いツールが得られるツールもあります。

これらの形式の使用には1つの制約があります。バッチ作業用に最適化されています。つまり、バッチで記述する必要があります。