= 장애 보고서 - 20210717 = == 원인 == 미꾸라지 DB slave 서버의 replication sync 가 느려짐으로 인해 DB 장애가 발생하였습니다. 이 이슈로 인해서 DB slave 의 relay log 가 지속적으로 쌓이며, 해당 DB slave 의 disk full 증상이 나타났습니다. 이에 대한 영향으로 DB master 서버의 bin log 또한 쌓이게 되어 이 또한 disk full 현상이 발생되었습니다. 이로 인해서 이로 인해서 로그인 및 UI 관련 대부분이 작동이 되지 않았으며, 전반적인 미꾸라지 이용에 큰 불편이 발생되었습니다. 불편을 드려 진심으로 죄송합니다. ㅠ.ㅠ == 장애 지속 시간 == * 2021-07-17 3:30 PM ~ 2021-07-17 6:30 PM (KST 기준) * 약 3 시간 동안 미꾸라지 웹페이지 및 로그인 등등 대부분의 미꾸라지 서비스가 제대로 동작하지 않았습니다. == 조치 및 경과 == * DB slave 의 replication sync 가 느려짐으로 인해 해당 머신의 upgrade 작업을 진행하였습니다. * DB slave 의 replication sync 가 600 초 이상 차이가 날 경우, 장애 관련 긴급 알람을 관리자에게 보내도록 설정하였습니다. * DB master 와 DB slave 의 DB 파티션이 80% 이상 공간을 차지하게 될 때, 장애 관련 긴급 알람을 관리자에게 보내도록 설정하였습니다. * DB 상에 가장 많은 공간을 차지하는 사용자 RTT 정보에 대한 테이블의 purge 주기를 만 2일에서 6시간으로 줄여 DB 공간 사용량을 감소시켰습니다. == 보상 == 이번 장애로 인한 사건에 대해서는 [[보상 정책]]에 따라 각 계정별 일괄 처리될 것입니다.