2017-10-13 3 views
0

私たちはPentahoケトルからApache AIrflowに移行し、ETLを実行し、1つのツールですべてのデータプロセスを集中化しようとしています。気流を使用してPostgres/MySQLからS3にデータを移動

ケトルを使用してPostgres/Mysqlデータベースからデータを毎日読み込み、データをS3→Redshiftに移動します。

これを行う最も簡単な方法は何ですか?私はこれを直接行うことができるオペレータを見ない。だから、私はMySQL/Postgresの演算子を使ってデータをローカルファイルに入れ、S3演算子を使ってデータをS3に移動する必要がありますか?

あなたは

答えて

1

あなたがあなた自身のオペレータのmysql_to_s3」を構築し、エアフローのプラグインとして追加することができますありがとうございます。

GCSへのMySQLからデータをアーカイブするためにオペレータがあります:

mysql_to_gcs.py

あなたが代わりにs3_hookを使用してdef _upload_to_gcsに少し変更して、すべてのコードを聞かせすることができます:s3_hook.py。カスタムプラグインについて

ドキュメント:

Airflow plugins: Blog article

Airflow plugins: Official documentation

関連する問題