= 장애 보고서 - 20171011 = == 원인 요약 == 최근 미꾸라지 이용자가 더욱 더 늘면서 Database 서버의 부하가 늘어났는데, 이로 인해 지속적으로 Request / Response 시간이 늘어남에 따라 일정 순간 한계치를 넘어 감으로써 이슈가 시작되었습니다. 이로 인해 Connection 실패 및 TIME-WAIT 상태로 소켓이 빨리 사용되지 못해 local port 고갈로 DB 연결 실패가 일어나며 문제가 시작되었습니다. == 장애 지속 시간 == * 2017-10-10 오후 9 시 30 분경 ~ 2017-10-11 오전 1 시경 (KST 기준) * 약 3 시간 30 분 동안 지속적으로 장애가 발생된 것으로 파악하고 있습니다. * 2017-10-11 오후 1 시 ~ 2017-10-11 오후 2 시 (KST 기준) * 이번 건의 이슈 재발 방지를 위해 긴급 PM (Preventive Maintainance) 시간을 가졌습니다. == 조치 및 경과 == * DB 서버의 CPU 및 메모리 증설 작업이 이루어졌습니다. 기존 1 Core / 1 G 메모리에서 4 Core / 4 G 메모리로 업그레이드 되었습니다. * 인증 서버의 TIME-WAIT reuse 를 하도록 조치를 취했습니다. == 보상 == 이번 장애로 인한 사건에 대해서는 [[보상 정책]]에 따라 각 계정별 일괄 처리될 것입니다.