2017-09-26 3 views
1

時々ノードを分割しています。 〜40ノードのクラスタで発生します。一度に1つのノードでのみ発生します。何度か重いGC作業が行われている間に何度か起こった。一方、私は、同様の重いGC作業が進行しており、ノードがセグメント化されていないことを確認しました。私が経験していた最大GCよりも大きいエラー検出タイムアウトを調整しましたが、それは助けになりませんでした - failureDetectionタイムアウトは最大GCの約2倍です。これが実際にGCやネットワークの問題であるかどうかはどうすればわかりますか? 他のノードが失敗するとネットワークに関係するのではないかと疑います。プロセスが再起動されると正常に動作し、ネットワークの問題を排除します。 EVT_NODE_SEGMENTEDを生成するコードはどこで見ることができますか? IgniteConfigurationオブジェクトをデバッグし、segResolversがnull /空であることがわかりました。そのため、発行されたイベントがどこにあるのかわかりません。Apache Igniteノードがセグメント化されました

S3ベースの検出が使用されていますが、ここで問題がないか(1.9点火)

このようなイベントがどのような条件で生成されるのだろうか?他のノードの大半またはすべてに接続できませんか?

+1

他にタイムアウトが設定されていますか?私はnetworkTimeout、connectTimeoutなどを指しています。 また、すべてのノードの設定とログを調べると便利です。 –

+0

私はfailureDetectionTimeoutとslowClientQueueLimitを設定しました。 socketWriteTimeoutに関連する警告が表示されることがあります。タイムアウトが発生し、おそらくそれを増やすべきです。 – Bart

+0

他のすべてのノードのログには、特定のノードが失敗したエントリが含まれます。 [disco-event-worker-#28%null%]警告oaiimdGridDiscoveryManager - ノードFAILED:TcpDiscoveryNode [id = 6d74ee33-0068-4e4f-8e67-b8f2a8bca05b、addrs = [0:0:0:0:0:0: sockAddrs = [/ 0:0:0:0:0:0:1%lo:47500、/127.0.0.1:47500、ip-10- 509-176.ec2.internal/10.50.9.176:47500]、discPort = 47500、order = 74、intOrder = 57、lastExchangeTime = 1506065144854、loc = false、ver = 1.9.0#20170302-sha1:a8169d0a、isClient = false] ' – Bart

答えて

0

このイベントは時にノードが切断を発生し、セグメント化されたノードのログでClientImpl.javaServerImpl.java

表情を見、バック接続することはできませんあなたは、正確な問題を把握することができますので、それは、Node is out of topology (probably, due to short-time network problemsメッセージのようなものでなければなりません。

+0

Thx、コードを見て。ちょうど考えて、他のすべてのノードがこのノードを「死んだ」とみなし、JVM自体が生きているということは、igniteがいくつかのハートビートチェックなどに答えなかったことを意味します。これがネットワーク上の問題ではない場合は、ボックスがそれらのメッセージを処理しないために非常にビジーであったことを意味します。私が理解する限り、failureDetectionタイムアウトはハートビートを意味し、それは私のケースではかなり大きいです。 – Bart

+0

ノードがセグメント化されているように感じさせるのは、 'org.apache.ignite.spi.discovery.tcp.ServerImpl.RingMessageWorker.checkHeartbeatsReceiving TcpDiscoveryStatusCheckMessage'を生成しますか? – Bart

関連する問題