airflow

    2

    1答えて

    私は3つの演算子の単純なDAGを持っています。最初のものはPythonOperatorであり、他の2つは標準オペレータairflow.contrib(正確にはFileToGoogleCloudStorageOperatorとGoogleCloudStorageToBigQueryOperator)です。彼らは順番に動作します。私たちのカスタムタスクは、パラメータに応じて、通常2〜5のファイルを生成

    0

    1答えて

    DAGをスケジュールするために実行する必要のあるコマンドがわかりません。 airflow test dag_name task_id_1 2017-06-22を使用してDAGをテストし、2番目のタスクをairflow test dag_name task_id_2 2017-06-22とテストしたとしましょう。 私はairflow trigger_dag dag_nameを実行しましたが、その時点

    2

    2答えて

    エアフローGUIを使用せずにS3接続を作成したいと考えています。 airflow.cfgまたはコマンドライン経由で可能ですか?私たちは、AWSの役割を使用して接続パラメータを以下の通りです は、私たちのために動作します: { "aws_account_id": "XXXX"、 "role_arn": "YYYYY"} をので、手動でS3のためのGUI上で接続を作成取り組んでいますこのプロセスを自動

    1

    1答えて

    デーモンモードで気流および偶発的に起動した気流スケジューラを初めて使用しました。さて、私はスケジューラを終了し、おそらくそれを再起動したい。私はやってみた sudo kill -9 <list of pids> pkill <name> 何も起きていない。 user1 2907 6.0 1.0 329788 62996 ? Sl 17:37 1:26 /users/user1/an

    3

    1答えて

    ドッカーとrabbitMQを使用してエアフローを構築しようとしています。私はrabbitmqを使用しています:3管理画像。私はrabbitMQ UIとAPIにアクセスできます。 気流の中で私は、気流ウェブサーバ、気流スケジューラ、気流作業員、気流花を構築しています。 Airflow.cfgファイルは、気流を設定するために使用されます。 version: '3' services: ra

    0

    1答えて

    気流中のヘルパー機能はどこに配置する必要がありますか?プラグインのディレクトリに追加する必要がありますか?私はそうのような私のETLジョブのためにいくつかの反復可能なコードを持っているつもりです: File "/usr/local/lib/python2.7/dist-packages/jinja2/loaders.py", line 187, in get_source raise Templ

    1

    2答えて

    FTPサーバー上のファイルをチェックするダグがあります(エアフローは別のサーバーで実行されます)。ファイルが存在する場合、ファイルはS3に移動します(ここでアーカイブします)。そこから、ファイル名がSparkサブミットジョブに渡されます。スパークジョブは、S3(異なるサーバー上のスパーククラスタ)を介してファイルを処理します。私は複数のダグを持つ必要があるかどうかはわかりませんが、ここではその流れ

    1

    2答えて

    親愛なるStackoverflowメンバー、 気流を使用してクラスタを起動し、スパークジョブを実行して終了するDAGをスケジュールしようとしています。私はこの例に従うことを試みた: https://insight.io/github.com/apache/incubator-airflow/blob/master/airflow/contrib/example_dags/example_emr_j

    2

    2答えて

    おはようございます。私はネットワークフォルダ プロセスをヒットするファイルのファイル アーカイブファイル使用 のセットアップにDAGすぎ ウォッチ/感覚をしようとしている チュートリアルオンラインとstackoverflow私は目標を達成する次のDAGとオペレータを考え出すことができましたが、私はDAGを再スケジューリングして、完了時に再実行してwatcを開始するようにします他のファイルのヒンジ/

    22

    3答えて

    私はdocker-composeを使用してスケーラブルエアフロークラスタを設定しています。私はこのDockerfileのアプローチに基づいていました。https://hub.docker.com/r/puckel/docker-airflow/ 私の問題は、s3からの書き込み/読み込みをログに設定することです。ダグが完了したとき、私はこの *** Log file isn't local. **