Amazon Aurora MySQLのRollbackSegmentHistoryListLength

こんにちは。サーバーサイドエンジニアの青山です。

先日、弊社のAmazon Aurora MySQLのCPU負荷が急に上昇してDBが再起動するという事象が発生しました。その原因を調査した時の話をRollbackSegmentHistoryListLengthを中心に紹介します。

当時の状況
レプリケーション遅延による再起動
RollbackSegmentHistoryListLengthが増加する原因
非同期処理による書き込み
おわりに

当時の状況

Amazon RDSのコンソールやDatadogのメトリクスから確認できたCPU負荷が上昇した時の状況は以下の通りです。

ライターインスタンスのRollbackSegmentHistoryListLengthが増加
ライターインスタンスのDMLThroughputが増加
リーダーインスタンスのCPUが上昇
AuroraReplicaLagが増加
大幅なレプリケーション遅延のためリーダーインスタンスが再起動

この時点で、RollbackSegmentHistoryListLengthの増加がトリガーになってレプリケーション遅延を引き起こし、インスタンスが再起動したと仮説を立てて調査を開始しました。

レプリケーション遅延による再起動

似たような事例はないか探していると「Amazon Auroraリードレプリカが遅れ、再起動されたのはなぜですか。」という記事を見つけました。

RollbackSegmentHistoryListLength（HLL）が増加している状況と照らし合わせると、以下が可能性としてありそうです。

増大化が進む History List Length (HLL) を調べる (Aurora MySQL - 互換)

MySQL InnoDB エンジンには、デフォルトで MVCC (multi-version concurrency control) が組み込まれています。これは、トランザクションの全体を通じて、影響を受けるすべての行で発生したすべての変更を追跡する必要があることを意味します。長時間実行されるトランザクションが完了すると、パージスレッドアクティビティの急増が始まります。長時間実行されるトランザクションによって作成されるバックログの量が原因で、この突然のパージが Aurora レプリカの遅延を引き起こす場合があります。

しかし、長時間実行されるトランザクションがないか調べたところ、そのような痕跡を見つけることはできませんでした。