現在の分散型トレーニングの実装でしばらくプレイした後、別のワーカーとして各GPUを見ると思います。しかし、今では1つのボックスに2〜4個のGPUを持つのが一般的です。シングルボックスマルチGPU手法を採用して、単一ボックスの平均グラジエントを計算し、複数のノード間で同期させる方が良いのではないでしょうか?このようにして、I/Oトラフィックが多く軽減されます。これは、常にデータ並列処理のボトルネックです。マルチGPU手法を用いたテンソルフロー分散型トレーニングハイブリッド
私は、現在の実装ではすべてのGPUをワーカーとして1つのボックスに入れることができると言われましたが、SyncReplicasOptimizerがオプティマイザを入力として直接受け入れるため、平均グラディエントをSyncReplicasOptimizerで結ぶ方法を特定できません。
他のアイデアはありますか?