torque

    0

    2答えて

    私の部門のコンピューティングクラスタをSun Grid Engineで使用しています。 複数のRジョブを実行する必要がある場合 私は通常、「R CMD BATCH r01.r」、「R」という名前のs01.sh、s02.sh、...、s50.shという名前のシェルスクリプトファイルを作成しますCMD BATCH r02.r '、...、' R CMD BATCH r50.r 'を内容とする。 次に、

    0

    1答えて

    ありません、私は(rootログインで)インストールするには、次のコマンドを与えたトルク:その後 ./configure make make install 、私が使用してトルクデーモンを実行しようとしました: cp contrib/init.d/trqauthd.in /etc/init.d/trqauthd chkconfig --add trqauthd echo /usr/loc

    1

    1答えて

    と分散型のトレーニングを実行している:https://www.tensorflow.org/deploy/distributed クラスタは、私がジョブスケジューリングおよび配布するためのトルクを使用する上でのトレーニングを実行したい場合は、これはテンソルフローにどのように適合し、クラスター上でトレーニングをどのように配布するのでしょうか? トルクのあるノードでトレーニングを設定し、そこからテンソ

    0

    1答えて

    pbsサーバーを正常にインストールし、サービスを開始し、pbsnodesコマンドを使用してノードを表示できます。キューはqstat -qコマンドで正しく表示されています。私はテストジョブを提出した後、以下は私のsched_log、server_logにとお母さんノードmom_logファイルに思い付く: sched_log: 08/16/2017 14:18:48.476;64; pbs_sched

    0

    1答えて

    私は、ジョブを配布するためのトルクで動作するクラスタを持っています。私はテンソルフローコードで仕事をしたいと思っており、テンソルフローが認識されないという問題があります。 私はanacondaを使用して私のLDAPユーザーにtensorflowをインストールしました。したがって、任意のノードにテンソルフロー環境を入力して、手動でコードを実行できます。私の問題は、実行時にトルクジョブがコンドーム環境

    4

    1答えて

    トルクpbsとmauiを実行しているクラスタ上のジョブによっては、この奇妙な動作が観察されます:一部のジョブが(R)実行中と(Q) google'ingしようとしたが、ヒントが見つかりませんでした。理由は何でしょうか? TensorFlowとPythonを使用しているものもあれば、C++の実行可能ファイルであるものもあります。

    0

    1答えて

    新しいトルクのインストール後、すべてのノードがダウンとして登録されます。ここで [[email protected] 6.0.1]# pbsnodes -a rbx-1 state = down power_state = Running np = 1 ntype = cluster mom_service_port = 15002 m

    0

    1答えて

    GPUのトルク割り当てに奇妙な問題があります。 2台のNVIDIA GTX Titan X GPUを搭載した1台のマシンでTorque 6.1.0を実行しています。私はスケジューリングのためにpbs_schedを使用しています。次のように安静時のnvidia-SMI出力は次のとおりです。 +------------------------------------------------------

    4

    1答えて

    完了した配列に依存するトルクジョブをサブミットしようとしています。 FIRST=`qsub -q hep -t 1-5 foo.sh` qsub -q hep -W depend=afterok:$FIRST bar.sh FIRSTジョブ配列を提出し、完了しただけで罰金が、第2のジョブbar.shだけで無期限に保持します。 最初の引数から配列オプションを削除すると、2番目のジョブは計画どおりに成

    0

    1答えて

    これらのログエントリを分析するにはどうすればよいですか?これらのログエントリの形式は何ですか? 1) PBS_Server;LOG_ERROR::Cannot assign requested address (99) in send_job, send_job failed to d23818f7 port 15002 2) pbs_mom;LOG_ALERT::mom_server_valid