2017-11-29 6 views
0

新しいトルクのインストール後、すべてのノードがダウンとして登録されます。ここでTorqueのインストール後にすべてのノードがダウンする

[[email protected] 6.0.1]# pbsnodes -a 
rbx-1 
    state = down 
    power_state = Running 
    np = 1 
    ntype = cluster 
    mom_service_port = 15002 
    mom_manager_port = 15003 

rbx-2 
    state = down 
    power_state = Running 
    np = 1 
    ntype = cluster 
    mom_service_port = 15002 
    mom_manager_port = 15003 

がQMGRある

[[email protected] 6.0.1]# qmgr -c 'p s' 

create queue batch 
set queue batch queue_type = Execution 
set queue batch resources_default.nodes = 1 
set queue batch resources_default.walltime = 01:00:00 
set queue batch enabled = True 
set queue batch started = True 
# 
# Set server attributes. 
# 
set server scheduling = True 
set server acl_hosts = rbx-1 
set server managers = [email protected] 
set server operators = [email protected] 
set server default_queue = batch 
set server log_events = 2047 
set server mail_from = adm 
set server node_check_rate = 150 
set server tcp_timeout = 300 
set server job_stat_rate = 300 
set server poll_jobs = True 
set server down_on_error = True 
set server mom_job_sync = True 
set server keep_completed = 300 
set server next_job_number = 0 
set server moab_array_compatible = True 
set server nppcu = 1 
set server timeout_for_job_delete = 120 
set server timeout_for_job_requeue = 120 

は私がこれを引き起こしているか、次に何しようとするのか分からないヘルプ - してくださいと言う私はなぜわかりません。チュートリアルやその他のアイデアは役に立ちます

+1

スタックオーバーフローは、プログラミングおよび開発に関する質問のサイトです。この質問は、プログラミングや開発に関するものではないので、話題にはならないようです。ヘルプセンターの[ここではどのトピックを参照できますか](http://stackoverflow.com/help/on-topic)を参照してください。おそらく、[スーパーユーザ](http://superuser.com/)や[Unix&Linux Stack Exchange](http://unix.stackexchange.com/)の方が良いかもしれません。 – jww

答えて

0

momctl -d0 -h rbx-1を実行して、MOMがサーバーと通信しているかどうかを確認してください。 server_nameファイルのホスト名が、サーバーと計算ノードの/ etc/hostsと一致することを確認します。私はノード上の/ etc/hostsに短い名前がないと思います。

関連する問題