Azure DataFactoryパイプラインをバックフィルして実行スケジュールに変換する方法は？

私は、空白のSQLテーブルにコピーする必要があるログデータを含む多数のブロブを持っており、より多くのブロブが定期的に到着します。ブロブは、[ORIGINALTARFILENAME].tar.gz.logの形式で名前が付けられます。Azure DataFactoryパイプラインをバックフィルして実行スケジュールに変換する方法は？

データファクトリを使用して、タイムアウトなしに最初のバックフィルを実行し、同じパイプラインを定期的なスケジュールで実行して、BLOBが2回処理されないようにするにはどうすればよいですか？

は、基本的にそれはあります：

展開が

出典

2016-07-02 Steph Locke

を変更するいくつかの並べ替えのスケジュールを含めるようにJSONを改正

VSで一回限りのプロセス

オープンプロセスを作成します。これあなたのデータがいかに正確に構成されているかによって異なります。データファクトリは、時間ベースのスライスに簡単に分割できるデータセットで最も効果的です。 ORIGINALTARFILENAMEにblobが作成された日時が含まれている場合は、パイプラインを1つだけで簡単に実現できます。

あなたは出発点として、公式ドキュメントからこの例を使用することができます：https://azure.microsoft.com/en-us/documentation/articles/data-factory-azure-blob-connector/

それからちょうどそこにすでにあるブロブのすべてを拾うために、過去に十分startDateあなたの活動を設定します。バックフィルは新しいスライスと並行して実行されます（アクティビティを増加させると、何も飢えていないことが確認されます）。各ブロブは正確に1つのスライスに対応し、処理されるため、特別な方法で処理する必要はありません。正確に1回。

出典

2016-07-02 23:13:14

Azure DataFactoryパイプラインをバックフィルして実行スケジュールに変換する方法は？

答えて

関連する問題