장애 보고서 - 20141016
원인 요약
미꾸라지 서버측 프로그램의 문제로 인해 거의 모든 중계 서버의 CPU 사용률이 100% 에 가깝게 됨에 의해 패킷 처리 및 응답 속도가 현저히 올라간 경우에 해당합니다. 또한 중앙 서버의 DB 서버 또한 과부하로 인해 제대로 웹 페이지가 열리지 않는 문제가 발생하였습니다.
원인 상세
2014-10-15 오후 4시 경 새로운 미꾸라지 중계 서버 US West (Seattle - Catalyst) 를 추가하는 과정에서 이 문제가 발생하였는데요, 모든 미꾸라지 중계 서버들은 서버 mesh 형태로 묶여 있기 때문에 새로운 서버가 추가가 되면 해당 신규 서버와 통신을 위한 채널을 생성하게 됩니다. 불행하게도 이 채널을 생성하는 과정에서 프로그램 버그가 있어 무한 loop 에 빠지게 되어 100% CPU 점유가 발생된 것입니다.
지속 시간
2014-10-15 오후 4 ~ 2014-10-16 오전 10시 (PDT 기준)
- 중앙 서버의 경우, 간헐적인 DB 오류가 발생하였습니다.
- 중계 서버들의 경우, CPU 100% 문제로 인해 접속은 가능하지만 패킷 처리 및 응답 속도 저하가 있었습니다.
경과
긴급 점검에 들어갔으며, 원인 파악 후 모든 중계 서버에 대해 패치 작업을 수행하였습니다. 현재 모든 중계 서버에 대한 패치 작업이 완료된 상태입니다.
보상 정책
미꾸라지 보상 정책에 따라, 문제점을 보고해 주신 모든 분들에게 소정의 크레딧을 추가 지급해 드렸습니다.