distributed

0熱

1答えて

分散型Tensorflow 1.0 logdirがHDFSになっているとスーパバイザ

TFOS 1.0バイナリをcentOS 8でCPU用にビルドします。スーパーバイザのlogdirがローカルディスクにある場合、MNISTデータ用の私の分散トレーニングコードは正常に動作します。私はHDFSにスーパーバイザーのLOGDIRを変更した場合でも、コードがスーパーバイザーの初期設定でスタックします： sv = tf.train.Supervisor(is_chief=(FLAGS.task

0熱

1答えて

分散型テンソルフローのPSサーバは、すべてのGPUを自動的に使用しますか？

私はDistributed Tensorflowを研究していました。 https://www.tensorflow.org/deploy/distributed # Create and start a server for the local task. server = tf.train.Server(cluster, job_name=FLAGS.job_name,

0熱

1答えて

Distributed Tensorflow Inception V3の各レプリカで複数のGPUを使用するにはどうすればよいですか？

Codeここでは、1つのGPUを使用する1つのタワーを持つ各レプリカを設定する方法を示します。現在、私がワーカーマシンですべてのGPUを使用するために使用している方法は、GPUの数に等しい数のワーカーを開始することです。労働者はあたかも1台のマシンにいないかのようにお互いに通信することができます。これは、複数のGPUを制御するウォーカーを開始できる場合よりも遅くなります。このコードのように、あ

2熱

1答えて

Dask ProgressBarは分散バックエンドでは機能しません

multiprocessingバックエンドで使用するとプログレスバーが美しく動作しますが、distributedスケジューラをバックエンドとして使用する場合は、まったく動作しません。方法はありますか？または別の解決策ですか？ distributedパッケージにはいくつかの進行状況バーがありますが、それらはすべて先物リストを必要とします。

0熱

3答えて

分散Tensorflow：非主任作業者がブロック

0熱

2答えて

なぜ、ハートビートが伝播するのにO（ログN）時間かかります

ゴシップスタイルの障害検出について読んでいました。私はそれを読んでいたノートでがあると述べています： a single heartbeat takes O(log(N)) time to propagateが、この文はこれは、なぜすべてのアイデアを説明されていませんか？

0熱

1答えて

`ClusterReceptionist`からのメッセージが` DistributedPubSubMediator`に届きません

ClusterClientで簡単な文字列"Dummy string"をAkkaクラスターに送信しようとしています。設定は問題なく、フロントエンドとクラスタを接続していますが、DistributedPubSubメディエータに送信されたSendメッセージはClusterReceptionistからDeadLettersに配信されます。 Sendメッセージがメディエータに送信されるようにするには、後でそ

0熱

1答えて

タイムラインとベンチマークでTensorflowパフォーマンスを打ち破る

TF 0.12.1を使用して、Tensorflowのパフォーマンスがどのように低下しているかを理解しようとしています。特に、Inception-v3モデルと、フォワードパスステップがどのくらいの時間を要しているかを見ています。最初のステップは、推論ステップだけでベンチマークを実行することでした。キューイング時間を避けるために、トレーニングの例を一定のテンソルに設定し、開始モデルを通して実行し

3熱

1答えて

Julia distribute関数：分散次元を指定する

私は、p個の作業者間でMxN整数配列を配布することに興味があります。配布するディメンションを指定する方法はありますか？特に、行数Mを固定し、N列に分散したい。私の場合、M> N（私は、サイズMと文書数Nの語彙を持つ用語 - 文書行列を持っています）。デフォルトでは、Juliaはアプリケーションでは機能しません（ドキュメントではなくボキャブラリで配布したい）という最大サイズのディメンションに配布す

1熱

1答えて

健全なマシンを判断するためのpingの代わり

私たちのuber-serviceは、別々のマシンで動作する複数のサービスで構成されています。サービスが健全で確実に到達できるように、他のマシンは定期的にサービスに「ping」リクエストを送信します。 pingのタイムアウトを決定するのは難しいですが、私たちはあまりにも長く（フェイル・ファースト・アプローチ）待ってはいけませんが、あまりにも速く失敗したくないのです（負荷が高いときに、サーバーとタイム