私は360GBの圧縮(gzip)のパイプ区切りテキストファイルを持っています。 1,620を超える列があります。私は正確なフィールド名を示すが、ここではそれが基本的に何をすることはできません。awsの360gbのテキストファイルの1,620列をピボットする
primary_key|property1_name|property1_value|property800_name|property800_value
12345|is_male|1|is_college_educated|1
は真剣に、これらのプロパティ名/値フィールドの800の上にあります。 約2億8000万行があります。 ファイルはS3バケットにあります。 データをRedshiftに取得する必要がありますが、Redshiftの列の制限は1,600です。
ユーザーは私にデータをピボットさせたいと思っています。例:
primary_key|key|value
12345|is_male|1
12345|is_college_educated|1
aws環境でファイルをピボットするにはどうすればよいですか?データは1つのファイルに保存されていますが、データを複数の異なるファイルに分割して並列処理が可能です。
私はAthenaの使用を検討しました。私はAthenaによって許可された列の最大数を示す何も見つけることができませんでした。しかし、私はPresto(Athenaが基づいています)について「厳しい限界はありませんが、数千以上のもので中断しているのを見ました」(https://groups.google.com/forum/#!topic/presto-users/7tv8l6MsbzI)というページを見つけました。
ありがとうございました。