장애 보고서 - 20171011
원인 요약
최근 미꾸라지 이용자가 더욱 더 늘면서 Database 서버의 부하가 늘어났는데, 이로 인해 지속적으로 Request / Response 시간이 늘어남에 따라 일정 순간 한계치를 넘어 감으로써 이슈가 시작되었습니다. 이로 인해 Connection 실패 및 TIME-WAIT 상태로 소켓이 빨리 사용되지 못해 local port 고갈로 DB 연결 실패가 일어나며 문제가 시작되었습니다.
장애 지속 시간
- 2017-10-10 오후 9 시 30 분경 ~ 2017-10-11 오전 1 시경 (KST 기준)
- 약 3 시간 30 분 동안 지속적으로 장애가 발생된 것으로 파악하고 있습니다.
- 2017-10-11 오후 1 시 ~ 2017-10-11 오후 2 시 (KST 기준)
- 이번 건의 이슈 재발 방지를 위해 긴급 PM (Preventive Maintainance) 시간을 가졌습니다.
조치 및 경과
- DB 서버의 CPU 및 메모리 증설 작업이 이루어졌습니다. 기존 1 Core / 1 G 메모리에서 4 Core / 4 G 메모리로 업그레이드 되었습니다.
- 인증 서버의 TIME-WAIT reuse 를 하도록 조치를 취했습니다.
보상
이번 장애로 인한 사건에 대해서는 보상 정책에 따라 각 계정별 일괄 처리될 것입니다.