2017-02-05 12 views
0

警告物理メモリを登録するあるOpenFabrics:OpenMPIのと、私はコマンドを使用してmpirunの開始

mpirun -np 2 prog 

と、次の出力を取得:

-------------------------------------------------------------------------- 
WARNING: It appears that your OpenFabrics subsystem is configured to only 
allow registering part of your physical memory. This can cause MPI jobs to 
run with erratic performance, hang, and/or crash. 

This may be caused by your OpenFabrics vendor limiting the amount of 
physical memory that can be registered. You should investigate the 
relevant Linux kernel module parameters that control how much physical 
memory can be registered, and increase them to allow registering all 
physical memory on your machine. 

See this Open MPI FAQ item for more information on these Linux kernel module 
parameters: 

http://www.open-mpi.org/faq/?category=openfabrics#ib-.. 

Local host: node107 
Registerable memory: 32768 MiB 
Total memory: 65459 MiB 

Your MPI job will continue, but may be behave poorly and/or hang. 
-------------------------------------------------------------------------- 
hello from 0 
hello from 1 
[node107:48993] 1 more process has sent help message help-mpi- btl-openib.txt/reg mem limit low 
[node107:48993] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help/error messages 

その他のインストールソフト(インテルMPIライブラリー)がエラーなしで、正常に動作し、すべての64GBメモリを使用します。

OpenMPIの場合、私はPBSマネージャ(Torque、slurmなど)を使用しません。シングルノードで作業します。私は次の出力を得る

cat /etc/security/limits.conf 

コマンドのコマンドによりノードに

ssh node107 

を取得する:コマンドの場合

... 
* soft rss 2000000 
* soft stack 2000000 
* hard stack unlimited 
* soft data  unlimited 
* hard data  unlimited 
* soft memlock unlimited 
* hard memlock unlimited 
* soft nproc 10000 
* hard nproc 10000 
* soft nofile 10000 
* hard nofile 10000 
* hard cpu unlimited 
* soft cpu unlimited 
... 

cat /sys/module/mlx4_core/parameters/log_num_mtt 

私は出力を得る:

0 

コマンド:

cat /sys/module/mlx4_core/parameters/log_mtts_per_seg 

出力:

3 

コマンド:

getconf PAGESIZE 

出力:

4096  
これにより0

はparamsは式によって

max_reg_mem = (2^log_num_mtt) * (2^log_mtts_per_seg) * PAGE_SIZE 

max_reg_mem = 32768のバイトを、また32ギガバイト、OpenMPIの警告で指定された方法。

この理由は何ですか? OpenMPiはMellanoxとparams log_num_mtt、log_mtts_per_segを使用できませんか? 64GBのメモリをすべて使用するようにOpenFabricsを設定する方法は?

+0

[TorqueジョブのOpenFabricsメモリ制限をどのようにして増やすことができますか?](http://stackoverflow.com/questions/17755433/how-can-i-increase-openfabrics-memory-limit-for-torque-ジョブ)。あなた、システム管理者、またはノードへのルートアクセス権を持っている人は、 'log_num_mtt'の値を11に増やすべきです(あなたの質問では' 0'は入力ミスで、 '10'でなければなりません)。 'mlx4_core'カーネルモジュールです。しかし、これは単一ノードジョブには関係なく、警告は無視しても問題ありません。 –

答えて

0

この問題は、OpenMPI(2.0.2)の最新バージョンをインストールすることで解決します。

関連する問題