答えて

1

あなたの最善の策は、クーベルネットのようなものを使うことです。これは進行中の作業ですが、私は分散型トレーニングのサポートも持っていると信じています - https://github.com/tensorflow/k8s。よりローテクの自動化オプションのための別の方法として

、これらが気になる...

  1. あなたはまだSSHを使用してリモートでスクリプトを実行するスクリプトを持つことができます。
  2. 個々のワーカーが、ファイルをダウンロードしてスクリプトを実行するための信号として使用するための共有場所をポーリングするように設定できます。
-1

推定値によって解析される環境変数TF_CONFIGを設定できます。

+0

どのように動作するのですか。しかし、それを行う最も簡単な方法は何ですか?私はすべてのマシンにsshしたい、gitをプルする、手作業でスクリプトを実行したくない... –

関連する問題