distributed

    0

    1答えて

    TFOS 1.0バイナリをcentOS 8でCPU用にビルドします。スーパーバイザのlogdirがローカルディスクにある場合、MNISTデータ用の私の分散トレーニングコードは正常に動作します。私はHDFSにスーパーバイザーのLOGDIRを変更した場合でも、コードがスーパーバイザーの初期設定でスタックします: sv = tf.train.Supervisor(is_chief=(FLAGS.task

    0

    1答えて

    私はDistributed Tensorflowを研究していました。 https://www.tensorflow.org/deploy/distributed # Create and start a server for the local task. server = tf.train.Server(cluster, job_name=FLAGS.job_name,

    0

    1答えて

    Codeここでは、1つのGPUを使用する1つのタワーを持つ各レプリカを設定する方法を示します。 現在、私がワーカーマシンですべてのGPUを使用するために使用している方法は、GPUの数に等しい数のワーカーを開始することです。労働者はあたかも1台のマシンにいないかのようにお互いに通信することができます。これは、複数のGPUを制御するウォーカーを開始できる場合よりも遅くなります。 このコードのように、あ

    2

    1答えて

    multiprocessingバックエンドで使用するとプログレスバーが美しく動作しますが、distributedスケジューラをバックエンドとして使用する場合は、まったく動作しません。 方法はありますか?または別の解決策ですか? distributedパッケージにはいくつかの進行状況バーがありますが、それらはすべて先物リストを必要とします。

    0

    3答えて

    分散テンソルフローを試しています。私のコードは以下のように表示されています。問題は、チーフワーカーが期待通りに動くことができるということです。しかし、非チーフ労働者がでブロックされます: のSES = sv.prepare_or_wait_for_session(ターゲット、コンフィグ= sess_config) 誰が私はこの問題を解決するのに役立つだろうか? # Copyright 2016 G

    0

    2答えて

    ゴシップスタイルの障害検出について読んでいました。私はそれを読んでいたノートで があると述べています: a single heartbeat takes O(log(N)) time to propagateが、この文は これは、なぜすべてのアイデアを説明されていませんか?

    0

    1答えて

    ClusterClientで簡単な文字列"Dummy string"をAkkaクラスターに送信しようとしています。設定は問題なく、フロントエンドとクラスタを接続していますが、DistributedPubSubメディエータに送信されたSendメッセージはClusterReceptionistからDeadLettersに配信されます。 Sendメッセージがメディエータに送信されるようにするには、後でそ

    0

    1答えて

    TF 0.12.1を使用して、Tensorflowのパフォーマンスがどのように低下​​しているかを理解しようとしています。特に、Inception-v3モデルと、フォワードパスステップがどのくらいの時間を要しているかを見ています。 最初のステップは、推論ステップだけでベンチマークを実行することでした。キューイング時間を避けるために、トレーニングの例を一定のテンソルに設定し、開始モデルを通して実行し

    3

    1答えて

    私は、p個の作業者間でMxN整数配列を配布することに興味があります。配布するディメンションを指定する方法はありますか?特に、行数Mを固定し、N列に分散したい。私の場合、M> N(私は、サイズMと文書数Nの語彙を持つ用語 - 文書行列を持っています)。 デフォルトでは、Juliaはアプリケーションでは機能しません(ドキュメントではなくボキャブラリで配布したい)という最大サイズのディメンションに配布す

    1

    1答えて

    私たちのuber-serviceは、別々のマシンで動作する複数のサービスで構成されています。サービスが健全で確実に到達できるように、他のマシンは定期的にサービスに「ping」リクエストを送信します。 pingのタイムアウトを決定するのは難しいですが、私たちはあまりにも長く(フェイル・ファースト・アプローチ)待ってはいけませんが、あまりにも速く失敗したくないのです(負荷が高いときに、サーバーとタイム