複数のpsとワーカーを持つマルチGPUクラスタで、TensorFlowのグラフ内のレプリケーションを試してみたい。 CIFAR-10 multi GPU exampleは、単一のマシン上でグラフの同期複製を示します。 example trainer program for between-graph trainingのような参照できる例がありますか?TensorFlowグラフ内レプリケーションの例
2
A
答えて
8
一般的に言えば、グラフ間レプリケーションは(現在のインプリメンテーションの)グラフ内レプリケーションよりもスケーラビリティが高いため、分散トレーニングのイングラフレプリケーションでのグラフ間レプリケーションを優先します。グラフ内の複製の主な問題は、ネットワークの複数のグラフ構造を作成し、単一の場所(つまり、分散マスター)で実現することです。何百ものレプリカがあると、マスターがボトルネックになります。対照的に、グラフ間のレプリケーションでは、各レプリカにはローカルに実行されるグラフのコピーしかありません。
グラフ間レプリケーションの欠点は、1回のトレーニング操作で1つのループではなく、複数のトレーニングループを同期させることができるため、同期トレーニングが難しくなることです。 distributed Inception trainerで使用されているtf.train.SyncReplicasOptimizer
は、グラフ間レプリケーションで同期トレーニングを実行する1つの方法を提供します。
ただし、グラフの複製を試行する場合は、CIFAR-10の例でthe line that assigns a device to each of the towersを変更してください。タワーを同じプロセス内の異なるGPUに割り当てる代わりに、異なる作業者タスクの異なるGPUにタワーを割り当てることができます。例:
worker_devices = ["/job:worker/task:0/gpu:0", ..., "/job:worker/task:7/gpu:0"]
for worker_device in worker_devices:
with tf.device(worker_device):
# Execute code for building the model replica.
関連する問題
- 1. WebSphere 7セッションのレプリケーション例外
- 2. TensorFlowラズベリーパイの例
- 3. TensorFlow:グラフ内のLSTM状態の保存/更新
- 4. TensorFlowグラフ内の条件を使用する場合
- 5. Tensorflow:クラス内のグラフを作成して実行する
- 6. tensorflow:スカラーテンソルをグラフ内のpythonスカラーオブジェクトに変換します。
- 7. Tensorflow word2vector例のエラーメッセージ
- 8. Android用Tensorflowの例
- 9. 例えばtensorflow
- 10. Tensorflow:グラフにデータを入力
- 11. 割り当て名TensorFlowグラフ
- 12. tensorflow - tf.where例外TypeError
- 13. ファイルを訓練したTensorFlowグラフに個々の例を与えるか?
- 14. TensorFlow XML、JSONなどへのグラフのエクスポート
- 15. SceneJSグラフの例
- 16. Tensorflow TFLearnの使用例
- 17. TensorFlowグラフの一部をフリーズ/エクスポートする
- 18. Tensorflowでは、グラフ内のすべてのテンソルの名前を取得します。
- 19. Tensorflow条件付きグラフ構築
- 20. Tensorflowを使用してグラフを描く
- 21. tensorflowグラフに整数を渡す
- 22. JasperReport円グラフの例
- 23. 分散型TensorFlowの例がTensorFlow 0.9で動作しない
- 24. div内の複数の画像の変更(グラフの凡例)
- 25. Googleのグラフ内にラインの凡例のラベルを表示する
- 26. レプリケーション
- 27. TensorFlow:テンソルが同じグラフ内にあることを確認する方法
- 28. Tensorflow MNISTのLSTMの最終層例
- 29. FacebookのグラフURLの例
- 30. Crossfilterの複合グラフの例
こんにちは、@正確にレプリカは何ですか?どうも! –
[Distributed Machine Learning用パラメータサーバ](https://www.cs.cmu.edu/~muli/file/ps.pdf)の論文の中で複製と関係がありますか? –
この資料(https://clindatsci.com/blog/2017/5/31/distributed-tensorflow)は、補足資料として役立ちます。 –