テンソルfow.slim.learningでマルチgpuを使用した分散トレーニング

私はテンソルフローが新しく、TFが配布をサポートしていると聞いています。テンソルfow.slim.learningでマルチgpuを使用した分散トレーニング

train_image_classifier.pyにnum_clonesがありますので、私はローカルでmutli-gpuを使用できます。

python $TF_MODEL_HOME/slim/train_image_classifier.py \ 
--num_clones=2 
--train_dir=${TRAIN_DIR} \ 
--dataset_name=imagenet \ 
--dataset_split_name=train \ 
--dataset_dir=${DATASET_DIR} \ 
--model_name=vgg_19 \ 
--batch_size=32 \ 
--max_number_of_steps=100

次に、別のホストでmulit-gpuを使いたいです。

どうすればいいですか？

出典

2017-11-29 daixiang0

--worker_replicas=<no of hosts>を使用して、同じ数のGPUで複数のホストをトレーニングする必要があります。それ以外に、複数のホストでトレーニングをしている場合は、--task、--num_ps_tasks、--sync_replicas、--replicas_to_aggregateを設定する必要があります。

私はあなたにHorovodを試してみることをお勧めします。私は数日で試してみるつもりです。

出典

2017-11-29 04:07:57 SnShines

もし私が192.168.0.1と192.168.0.2を持っていれば、各ホストは1つのgpuをホストし、次に192.168.0.1でcmdを実行し、 '--worker_replicas =" 192.168.0.2 "--task = 1 --num_ps_tasks = 1 --sync_replicas = true'、そうですか？ – daixiang0

@SnShines それぞれに3つのgpusを持つ2台のマシン（server1とserver2）のシナリオを想定すると、作成するプロセスの数と、記述したフラグの値の例を具体的に説明してください。 – ZeDuS

テンソルfow.slim.learningでマルチgpuを使用した分散トレーニング

答えて

関連する問題