最近、私たちのシステムはCPU使用率が急上昇しました。その根本的な原因はまだ不明です。私たちは毎晩バルクインデックス作成の仕事をして、ほとんどすべてのドキュメントを更新しているので、過去にはメモリ使用量やディスクアラートが高くなっています。しかし、高いCPU使用率は問題ではありません。これまで収集検索応答時間が2倍になりました。
データ:(6つのデータノードのうち3マスター)
ノード03は、1秒の応答時間スパイクをもたらす、5分間、高いCPU使用率(> 95%)を患っ平均応答時間は40msです。 メトリックを見ると、特定の高CPUノードのインデックスカウントにわずかな差がありましたが、同時に若いGCには若干のバンプがありました(どちらの場合もスパイクのようなものはありません)。
私はカフカ消費者にデータの任意の時刻にバルクインデックスデータを受け付けるが、最大250dpi /秒の速度で制御されているので、バルクコール。
また、私はまだ解読できませんが、ホットスレッドのエンドポイントでデータがありました。
更新
以前の観察が間違っていたので、質問のタイトルを更新しました。主な懸案事項は、応答時間が2倍になり、しばらくして使用量が安定したため、高いCPU使用率ではありません。
いくつかの開発があります。スパイクの後、CPU使用率は徐々に低下し、正常です。 しかし、私たちの応答時間は一貫して100〜250ms(通常の平均値 - 35〜100ms)です。
現在、レスポンスには、歯面に近い(正確には均一な歯面)パターンがあります。
また、スパイクが発生した古いGC数の小さなバンプがありました。
ノードの統計情報に異常がありません。発見されると更新されます。まだ調査のために投稿しています。また、最近のホットなスレッド投稿
-
ログにアクセスできる場合は、CPUスパイク中に実行したクエリの種類を確認してください。結果をソートするのはCPU集中です。膨大な数の結果を返すクエリを実行している可能性があります。ちょっと推測すると... – jay
@ jay私たちは、ハードコードされた結果サイズの値を持つビジネスロジックのセットアップを持っています。また、anamolyのログもチェックしました。何も見つかりませんでした。 –
すべてのホットスレッドは検索に関連しています。スパイク中にホットスレッドをダンプするのですか?あなたの質問に変更がありましたか?集約?これらのサーバで監視設定を行っている場合は、スパイク時にノード03が重いマージを行っていたかどうかを確認できますか? – jay