2016-07-02 6 views
2

私は、空白のSQLテーブルにコピーする必要があるログデータを含む多数のブロブを持っており、より多くのブロブが定期的に到着します。ブロブは、[ORIGINALTARFILENAME].tar.gz.logの形式で名前が付けられます。Azure DataFactoryパイプラインをバックフィルして実行スケジュールに変換する方法は?

データファクトリを使用して、タイムアウトなしに最初のバックフィルを実行し、同じパイプラインを定期的なスケジュールで実行して、BLOBが2回処理されないようにするにはどうすればよいですか?

は、基本的にそれはあります:

  1. 展開が

答えて

1

を変更するいくつかの並べ替えのスケジュールを含めるようにJSONを改正

  • VSで一回限りのプロセス
  • オープンプロセスを作成します。これあなたのデータがいかに正確に構成されているかによって異なります。データファクトリは、時間ベースのスライスに簡単に分割できるデータセットで最も効果的です。 ORIGINALTARFILENAMEにblobが作成された日時が含まれている場合は、パイプラインを1つだけで簡単に実現できます。

    あなたは出発点として、公式ドキュメントからこの例を使用することができます:https://azure.microsoft.com/en-us/documentation/articles/data-factory-azure-blob-connector/

    それからちょうどそこにすでにあるブロブのすべてを拾うために、過去に十分startDateあなたの活動を設定します。バックフィルは新しいスライスと並行して実行されます(アクティビティを増加させると、何も飢えていないことが確認されます)。各ブロブは正確に1つのスライスに対応し、処理されるため、特別な方法で処理する必要はありません。正確に1回。

  • 関連する問題