0

したがって、DynamoDBテーブル全体をS3にダンプします。このtutorialは、その方法を説明しています。テストを受けた、それは働いた...素晴らしいダイナモDBテーブルをS3に簡単にエクスポート

しかし、今私は相当な(> 100ギガバイト)私の生産データでそれを使いたいです。そして、私はそれをすばやく実行したい。明らかに、私のDynamoDBテーブルの読み込みスループットはここの要素ですが、データパイプラインができる限りのことをしていることを確認する手段があります。私はこれらのことに精通していません。セットアップ後のアーキテクトビューでは、インスタンスタイプとインスタンス数の領域がありますが、これらの時間が増えてパイプライン時間が短縮されますか?このチュートリアルでは、使用することを意図したテーブルのスループットを指定することを除き、スピードについて何も言及していません。それに基づいて自動的に拡大縮小されますか?

答えて

0

このテンプレートは、データパイプラインチームがgihubで持っているオープンソースのサンプルに基づいています。

あなたが参照しているテンプレートはhereです。

パイプラインの定義を見ると、エクスポートがmap-reduceジョブで実行されていることがわかります。エクスポートジョブのスケーラビリティはそれによって処理される必要があります。

EMRがDynamoDBでどのように機能するかについて詳しくは、hereを参照してください。インスタンス数を増やす場合は、テーブルのスループットを調整して、エクスポートの並列性を高める必要があります。

関連する問題