時々ノードを分割しています。 〜40ノードのクラスタで発生します。一度に1つのノードでのみ発生します。何度か重いGC作業が行われている間に何度か起こった。一方、私は、同様の重いGC作業が進行しており、ノードがセグメント化されていないことを確認しました。私が経験していた最大GCよりも大きいエラー検出タイムアウトを調整しましたが、それは助けになりませんでした - failureDetectionタイムアウトは最大GCの約2倍です。これが実際にGCやネットワークの問題であるかどうかはどうすればわかりますか? 他のノードが失敗するとネットワークに関係するのではないかと疑います。プロセスが再起動されると正常に動作し、ネットワークの問題を排除します。 EVT_NODE_SEGMENTEDを生成するコードはどこで見ることができますか? IgniteConfigurationオブジェクトをデバッグし、segResolversがnull /空であることがわかりました。そのため、発行されたイベントがどこにあるのかわかりません。Apache Igniteノードがセグメント化されました
S3ベースの検出が使用されていますが、ここで問題がないか(1.9点火)
このようなイベントがどのような条件で生成されるのだろうか?他のノードの大半またはすべてに接続できませんか?
他にタイムアウトが設定されていますか?私はnetworkTimeout、connectTimeoutなどを指しています。 また、すべてのノードの設定とログを調べると便利です。 –
私はfailureDetectionTimeoutとslowClientQueueLimitを設定しました。 socketWriteTimeoutに関連する警告が表示されることがあります。タイムアウトが発生し、おそらくそれを増やすべきです。 – Bart
他のすべてのノードのログには、特定のノードが失敗したエントリが含まれます。 [disco-event-worker-#28%null%]警告oaiimdGridDiscoveryManager - ノードFAILED:TcpDiscoveryNode [id = 6d74ee33-0068-4e4f-8e67-b8f2a8bca05b、addrs = [0:0:0:0:0:0: sockAddrs = [/ 0:0:0:0:0:0:1%lo:47500、/127.0.0.1:47500、ip-10- 509-176.ec2.internal/10.50.9.176:47500]、discPort = 47500、order = 74、intOrder = 57、lastExchangeTime = 1506065144854、loc = false、ver = 1.9.0#20170302-sha1:a8169d0a、isClient = false] ' – Bart