1
私はテンソルフローが新しく、TFが配布をサポートしていると聞いています。テンソルfow.slim.learningでマルチgpuを使用した分散トレーニング
train_image_classifier.py
にnum_clones
がありますので、私はローカルでmutli-gpuを使用できます。
python $TF_MODEL_HOME/slim/train_image_classifier.py \
--num_clones=2
--train_dir=${TRAIN_DIR} \
--dataset_name=imagenet \
--dataset_split_name=train \
--dataset_dir=${DATASET_DIR} \
--model_name=vgg_19 \
--batch_size=32 \
--max_number_of_steps=100
次に、別のホストでmulit-gpuを使いたいです。
どうすればいいですか?
もし私が192.168.0.1と192.168.0.2を持っていれば、各ホストは1つのgpuをホストし、次に192.168.0.1でcmdを実行し、 '--worker_replicas =" 192.168.0.2 "--task = 1 --num_ps_tasks = 1 --sync_replicas = true'、そうですか? – daixiang0
@SnShines それぞれに3つのgpusを持つ2台のマシン(server1とserver2)のシナリオを想定すると、作成するプロセスの数と、記述したフラグの値の例を具体的に説明してください。 – ZeDuS