Apache Igniteノードがセグメント化されました

時々ノードを分割しています。〜40ノードのクラスタで発生します。一度に1つのノードでのみ発生します。何度か重いGC作業が行われている間に何度か起こった。一方、私は、同様の重いGC作業が進行しており、ノードがセグメント化されていないことを確認しました。私が経験していた最大GCよりも大きいエラー検出タイムアウトを調整しましたが、それは助けになりませんでした - failureDetectionタイムアウトは最大GCの約2倍です。これが実際にGCやネットワークの問題であるかどうかはどうすればわかりますか？他のノードが失敗するとネットワークに関係するのではないかと疑います。プロセスが再起動されると正常に動作し、ネットワークの問題を排除します。 EVT_NODE_SEGMENTEDを生成するコードはどこで見ることができますか？ IgniteConfigurationオブジェクトをデバッグし、segResolversがnull /空であることがわかりました。そのため、発行されたイベントがどこにあるのかわかりません。Apache Igniteノードがセグメント化されました

S3ベースの検出が使用されていますが、ここで問題がないか（1.9点火）

このようなイベントがどのような条件で生成されるのだろうか？他のノードの大半またはすべてに接続できませんか？

出典

2017-09-26 Bart

他にタイムアウトが設定されていますか？私はnetworkTimeout、connectTimeoutなどを指しています。また、すべてのノードの設定とログを調べると便利です。 –

私はfailureDetectionTimeoutとslowClientQueueLimitを設定しました。 socketWriteTimeoutに関連する警告が表示されることがあります。タイムアウトが発生し、おそらくそれを増やすべきです。 – Bart

他のすべてのノードのログには、特定のノードが失敗したエントリが含まれます。 [disco-event-worker-＃28％null％]警告oaiimdGridDiscoveryManager - ノードFAILED：TcpDiscoveryNode [id = 6d74ee33-0068-4e4f-8e67-b8f2a8bca05b、addrs = [0：0：0：0：0：0： sockAddrs = [/ 0：0：0：0：0：0：1％lo：47500、/127.0.0.1:47500、ip-10- 509-176.ec2.internal/10.50.9.176：47500]、discPort = 47500、order = 74、intOrder = 57、lastExchangeTime = 1506065144854、loc = false、ver = 1.9.0＃20170302-sha1：a8169d0a、isClient = false] ' – Bart

このイベントは時にノードが切断を発生し、セグメント化されたノードのログでClientImpl.javaとServerImpl.java

表情を見、バック接続することはできませんあなたは、正確な問題を把握することができますので、それは、Node is out of topology (probably, due to short-time network problemsメッセージのようなものでなければなりません。

出典

2017-09-27 08:49:10 Konstantin

Thx、コードを見て。ちょうど考えて、他のすべてのノードがこのノードを「死んだ」とみなし、JVM自体が生きているということは、igniteがいくつかのハートビートチェックなどに答えなかったことを意味します。これがネットワーク上の問題ではない場合は、ボックスがそれらのメッセージを処理しないために非常にビジーであったことを意味します。私が理解する限り、failureDetectionタイムアウトはハートビートを意味し、それは私のケースではかなり大きいです。 – Bart

ノードがセグメント化されているように感じさせるのは、 'org.apache.ignite.spi.discovery.tcp.ServerImpl.RingMessageWorker.checkHeartbeatsReceiving TcpDiscoveryStatusCheckMessage'を生成しますか？ – Bart

Apache Igniteノードがセグメント化されました

答えて

関連する問題