CIFAR Tutorialの場合はTFが問題ありません。 train_dir
(チェックポイントとモデルを含むディレクトリ)を知っている場所に保存するようにコードを変更しました。Tensorflowでのトレーニングの一時停止/再開方法
テンソルボードは、具体的にはtrain_dir
で正常に動作しているようですが、Webインターフェイスを介して私に監督ツールを与えることができます。
2015年11月13日10:09:30.278728:精密1 @ = 0.101
Wのtensorflow /コア/ common_runtime/executor.cc:1027] 0x7fea7c0547c0計算ステータス:キャンセル:エンキュー操作がキャンセルされた [ノード:input_producer/input_producer_EnqueueMany = QueueEnqueueMany [Tcomponents = [DT_STRING]、timeout_ms = -1、_device = "/ j OB:ローカルホスト/レプリカ:0 /タスク:0/CPU:0" (input_producer、input_producer/RandomShuffle)]
のI /コア/カーネル/ fifo_queue.ccをtensorflow:154]スキップがエンキュー試みをキャンセル
W tensorflow/core/common_runtime/executor.cc:1027] 0x7fea2c0024e0計算ステータス:中止:RandomShuffleQueue '_2_shuffle_batch/random_shuffle_queue'が閉じられました。 [shuffle_batch/random_shuffle_queue_enqueue = QueueEnqueue [Tcomponents = [DT_FLOAT、DT_INT32]、timeout_ms = -1、_device = "/ job:localhost/replica:0/task:0/cpu:0"](シャッフルバッチ/ランダムシャッフルキュー、 0x7fea50003b80計算ステータス:中止:RandomShuffleQueue '_2_shuffle_batch/random_shuffle_queue'が閉じられています。 [shuffle_batch/random_shuffle_queue_enqueue = QueueEnqueue [Tcomponents = [DT_FLOAT、DT_INT32]、timeout_ms = -1、_device = "/ job:localhost/replica:0/task:0/cpu:0"](シャッフルバッチ/ランダムシャッフルキュー、 DIV/_23、キャスト)]]
...私の質問に私をもたらします
:どのように私は一時停止し、TFといくつかのトレーニングを再開することができますか?
復元方法は、セーバーのインスタンスを必要とするため、このコマンドtf.train.Saver.restore(SESの、save_path)を使用すると、エラーが発生します。 – Kongsea