장애 보고서 - 20190306
원인 요약
미꾸라지 중계 서버를 대상으로 DoS 공격이 있었습니다. 이로 인해 한국시각 오후 8시 30분경부터 오후 11 시까지 연결이 제대로 되지 않거나 Bad Gateway 이슈로 인해 홈페이지 접속이 제대로 되지 않았습니다.
근본적인 원인은 DB 부하로 시작되었으며, 거의 모든 미꾸라지 중계 서버를 대상으로 한 DoS 공격으로 인해, 내부적으로 수집하는 로그 정보가 일시적으로 몰리면서 DB 처리량을 초과하여 느려지기 시작하였습니다. 그로 인해 DB 서버 부하가 지속되며 대부분의 DB query 가 이루어지는 웹 서버 / 인증 서버들이 연결 실패가 나기 시작하였습니다.
장애 지속 시간
- 2019-3-6 8:30 PM ~ 2019-3-6 10 PM (KST 기준)
- 약 2 시간 30분 동안 지속적으로 장애가 발생된 것으로 파악하고 있습니다. 이로 인해 미꾸라지 홈페이지 접속 / 인증 실패 등등 미꾸라지 서비스 이용이 거의 불가능하였습니다.
조치 및 경과
- 내부적으로 로그 이벤트 처리를 임시적으로 disable 시켜 놓았습니다. 근본적인 해결책으로 PM 시간을 가진 후 웹 서버 증설 / DB query 최적화가 필요해 보입니다.
- 현재 모든 미꾸라지 서비스 및 중계 서버가 문제없이 동작하고 있습니다. 혹시나 안되는 부분이 있다면 포럼에 글을 작성해 주시기 바랍니다.
보상
이번 장애로 인한 사건에 대해서는 보상 정책에 따라 각 계정별 일괄 처리될 것입니다.