2017-11-29 6 views
1

私はテンソルフローが新しく、TFが配布をサポートしていると聞いています。テンソルfow.slim.learningでマルチgpuを使用した分散トレーニング

train_image_classifier.pynum_clonesがありますので、私はローカルでmutli-gpuを使用できます。

python $TF_MODEL_HOME/slim/train_image_classifier.py \ 
--num_clones=2 
--train_dir=${TRAIN_DIR} \ 
--dataset_name=imagenet \ 
--dataset_split_name=train \ 
--dataset_dir=${DATASET_DIR} \ 
--model_name=vgg_19 \ 
--batch_size=32 \ 
--max_number_of_steps=100 

次に、別のホストでmulit-gpuを使いたいです。

どうすればいいですか?

答えて

0

--worker_replicas=<no of hosts>を使用して、同じ数のGPUで複数のホストをトレーニングする必要があります。それ以外に、複数のホストでトレーニングをしている場合は、--task--num_ps_tasks--sync_replicas--replicas_to_aggregateを設定する必要があります。

私はあなたにHorovodを試してみることをお勧めします。私は数日で試してみるつもりです。

+0

もし私が192.168.0.1と192.168.0.2を持っていれば、各ホストは1つのgpuをホストし、次に192.168.0.1でcmdを実行し、 '--worker_replicas =" 192.168.0.2 "--task = 1 --num_ps_tasks = 1 --sync_replicas = true'、そうですか? – daixiang0

+0

@SnShines それぞれに3つのgpusを持つ2台のマシン(server1とserver2)のシナリオを想定すると、作成するプロセスの数と、記述したフラグの値の例を具体的に説明してください。 – ZeDuS

関連する問題