Last updated at 2021-07-17 13:27:00

장애 보고서 - 20210717

원인

미꾸라지 DB slave 서버의 replication sync 가 느려짐으로 인해 DB 장애가 발생하였습니다. 이 이슈로 인해서 DB slave 의 relay log 가 지속적으로 쌓이며, 해당 DB slave 의 disk full 증상이 나타났습니다. 이에 대한 영향으로 DB master 서버의 bin log 또한 쌓이게 되어 이 또한 disk full 현상이 발생되었습니다.

이로 인해서 이로 인해서 로그인 및 UI 관련 대부분이 작동이 되지 않았으며, 전반적인 미꾸라지 이용에 큰 불편이 발생되었습니다. 불편을 드려 진심으로 죄송합니다. ㅠ.ㅠ

장애 지속 시간

  • 2021-07-17 3:30 PM ~ 2021-07-17 6:30 PM (KST 기준)
    • 약 3 시간 동안 미꾸라지 웹페이지 및 로그인 등등 대부분의 미꾸라지 서비스가 제대로 동작하지 않았습니다.

조치 및 경과

  • DB slave 의 replication sync 가 느려짐으로 인해 해당 머신의 upgrade 작업을 진행하였습니다.
  • DB slave 의 replication sync 가 600 초 이상 차이가 날 경우, 장애 관련 긴급 알람을 관리자에게 보내도록 설정하였습니다.
  • DB master 와 DB slave 의 DB 파티션이 80% 이상 공간을 차지하게 될 때, 장애 관련 긴급 알람을 관리자에게 보내도록 설정하였습니다.
  • DB 상에 가장 많은 공간을 차지하는 사용자 RTT 정보에 대한 테이블의 purge 주기를 만 2일에서 6시간으로 줄여 DB 공간 사용량을 감소시켰습니다.

보상

이번 장애로 인한 사건에 대해서는 보상 정책에 따라 각 계정별 일괄 처리될 것입니다.

장애 보고서 - 20210717 (last edited 2021-07-17 13:27:00 by loxch)