1

最近、Kubernetes Engine(GCP)上にクラスタが作成され、異常な動作が発生しました。毎日、特定の時刻にノードが自動的に停止して再作成されるため、数分間アプリケーションを使用できなくなります。突然毎日クラスタが再起動しています

事件がのStackdriverダッシュボードに表示されている方法:問題の根本的な原因を理解するために、私が参考に起こった事件を取る、のStackdriverでのログを解析し

enter image description here

今日(2017-12-1912:22 pm)です。

クラスタログ:

事件に関連して存在する最も近いエントリはちょうど12:26午後(クラスタが戻ってきたことが、おそらくモーメント)です。

enter image description here

ノードログ:

インスタンスのログは、あまりにも多くを助けていないようです。インシデントに最も近いレコードは、12:23 pm(インスタンスの復帰後も)に表示されます。

enter image description here

誰かが前にこのような状況を経たか、私たちはより良い、それをデバッグし、この動作を引き起こしているものを発見することができますどのように任意のアイデアを持っていますか?

インシデントの原因は、スタックドライバのログには表示されていません。

答えて

2

上記の動作は、preemptible nodes in GKEの動作と非常によく似ています(最大24時間)。

あなたのノードがプリエンプト可能であればあなたがわからない場合は、GCPのWebUIの(私のサンプル以下enter image description here、「プリエンプティブノード」の行を確認してください)、またはCLI経由でチェック:CLIコマンドがする場合

$ gcloud compute instances list | grep gke | awk '{print $4}' 

は、 (下記参照)のノードがプリエンプト可能であることを意味し、「真」を返す:

$ gcloud compute instances list | grep gke | awk '{print $4}' 
true 
true 
true 

注:grepコマンドはGKEのクラスタ名を追加した後は、同じプロジェクトの下で複数のGKEクラスタを持っている場合。

関連する問題