2016-04-08 18 views
0

私の新しい仕事では、トルクをリソースマネージャとして使用し、mauiをスケジューラとして使用するクラスタを管理します。デバッグキューに行くトルクPBSジョブ

現在、特定のユーザージョブが常にデバッグキューに送信されるこの繰り返しの問題に直面しています。ここでは、システム上のアクティブなキューのリストは以下のとおりです。

Queue   Memory CPU Time Walltime Node Run Que Lm State 
---------------- ------ -------- -------- ---- --- --- -- ----- 
debug    --  -- 00:20:00 -- 0 0 12 E R 
intel    --  --  --  -- 0 0 -- E R 
medium    --  -- 72:00:00 -- 0 0 12 E R 
bighuge   --  --  --  -- 0 0 -- E R 
long    --  --  --  -- 0 0 12 E R 
               ----- ----- 
                0  0 

利用者から提出されたジョブの壁の時間は、時間単位であるため、そのデバッグをキューに送信された理由を、私は困惑しています。

はまた、ここでtracejobの出力です:今

04/08/2016 15:46:48 S enqueuing into intel, state 1 hop 1 
04/08/2016 15:46:48 S dequeuing from intel, state QUEUED 
04/08/2016 15:46:48 S enqueuing into debug, state 1 hop 1 
04/08/2016 15:46:48 S Job Queued at request of [email protected], owner = [email protected], job name = run01_submit.script, queue = 
          debug 
04/08/2016 15:46:49 S Job Run at request of [email protected] 
04/08/2016 15:46:49 S child reported success for job after 0 seconds (dest=n20), rc=0 
04/08/2016 15:46:49 S preparing to send 'b' mail for job 15631.cm01 to [email protected] (---) 
04/08/2016 15:46:49 S Not sending email: User does not want mail of this type. 
04/08/2016 15:46:49 S obit received - updating final job usage info 
04/08/2016 15:46:49 S job exit status 1 handled 
04/08/2016 15:46:49 S preparing to send 'e' mail for job 15631.cm01 to [email protected] (Exit_status=1 
04/08/2016 15:46:49 S Not sending email: User does not want mail of this type. 
04/08/2016 15:46:49 S Exit_status=1 resources_used.cput=00:00:00 resources_used.mem=0kb resources_used.vmem=0kb 
          resources_used.walltime=00:00:00 
04/08/2016 15:46:49 S on_job_exit task assigned to job 
04/08/2016 15:46:49 S req_jobobit completed 
04/08/2016 15:46:49 S JOB_SUBSTATE_EXITING 
04/08/2016 15:46:49 S JOB_SUBSTATE_STAGEOUT 
04/08/2016 15:46:49 S about to copy stdout/stderr/stageout files 
04/08/2016 15:46:49 S JOB_SUBSTATE_STAGEOUT 
04/08/2016 15:46:49 S JOB_SUBSTATE_STAGEDEL 
04/08/2016 15:46:49 S JOB_SUBSTATE_EXITED 
04/08/2016 15:46:49 S JOB_SUBSTATE_COMPLETE 
04/08/2016 15:50:54 S Request invalid for state of job COMPLETE 
04/08/2016 15:51:00 S Request invalid for state of job COMPLETE 
04/08/2016 15:51:49 S dequeuing from debug, state COMPLETE 

この問題を回避するには、手動でqalterコマンドを使用してジョブに割り当てられたキューを変更することです。

アイデア?

答えて

0

ジョブが即座にインテルキューからデバッグにジャンプするため、qmgrまたはMauiのいずれかで自動ルーティングが設定されている可能性があります。インテルのキューがルーティングキューとして設定されている場合、それはそれを説明します。

qmgr -c "print queue intel"を実行して確認してください。

ルーティングキューではない場合は、おそらくloglevelを増やして、pbs_serverログに何が起こっているのかを確認することができます。

私はそのようなルーティングキューを作成するときにジョブを送信するとき、私はtracejob出力の同じ種類を取得:

05/20/2016 20:04:05.439 S enqueuing into route, state 1 hop 1 05/20/2016 20:04:05.440 S dequeuing from route, state QUEUED 05/20/2016 20:04:05.440 S enqueuing into test, state 1 hop 1 05/20/2016 20:04:05.737 S Job Run at request of [email protected]

そうでない場合は、手がかりのためマウイの設定とログを調べます。

+0

お返事ありがとうございます。それは散発的な問題なので、決してそれを解決する必要はありません。あなたの提案に基づいて質問を更新します。乾杯! – feverDream

関連する問題