1

私は自分のコンピュータ上で同じオペレーティングシステムとPythonバージョンを使用してthis tensorflow distributed tutorialを試しています。 official distributed tutorialをしようとしたとき、私は同様のエラーを取得し分散型TensorFlowの例がTensorFlow 0.9で動作しない

E0629 10:11:01.979187251 15265 tcp_server_posix.c:284]  bind addr=[::]:2222: Address already in use 
E0629 10:11:01.979243221 15265 server_chttp2.c:119]  No address added out of total 1 resolved 
Traceback (most recent call last): 
File "worker0.py", line 7, in <module> 
task_index=0) 
File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/training/server_lib.py", line 142, in __init__ 
server_def.SerializeToString(), status) 
File "/usr/lib/python2.7/contextlib.py", line 24, in __exit__ 
self.gen.next() 
File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/errors.py", line 450, in raise_exception_on_not_ok_status 
pywrap_tensorflow.TF_GetCode(status)) 
tensorflow.python.framework.errors.InternalError: Could not start gRPC server 

:私は、最初のスクリプトを作成し、端末でそれを実行し、その後、私は別の端末を開いて、2つ目のスクリプトを実行すると、次のエラーを取得します。

編集:私は、同じパッケージで私が持っている別のマシン上でこれを試してみました、今私は、次のエラーログを取得:

E0629 11:17:44.500224628 18393 tcp_server_posix.c:284]  bind addr=[::]:2222: Address already in use 
E0629 11:17:44.500268362 18393 server_chttp2.c:119]  No address added out of total 1 resolved 
Segmentation fault (core dumped) 

問題である可能性があり何?

答えて

3

おそらく、両方のワーカーに同じポート番号(2222)を使用している可能性があります。各ポート番号は、任意のホスト上の1つのプロセスでのみ使用できます。これはエラー "bind addr = [::]:2222:Address already in use"の意味です。

クラスタ仕様に「localhost:2222」が2回あるか、2つのタスクに同じtask_indexを指定しているかのいずれかです。

私はそれが助けてくれることを願っています!

関連する問題