장애 보고서 - 20141016

원인 요약

미꾸라지 서버측 프로그램의 문제로 인해 거의 모든 중계 서버의 CPU 사용률이 100% 에 가깝게 됨에 의해 패킷 처리 및 응답 속도가 현저히 올라간 경우에 해당합니다. 또한 중앙 서버의 DB 서버 또한 과부하로 인해 제대로 웹 페이지가 열리지 않는 문제가 발생하였습니다.

원인 상세

2014-10-15 오후 4시 경 새로운 미꾸라지 중계 서버 US West (Seattle - Catalyst) 를 추가하는 과정에서 이 문제가 발생하였는데요, 모든 미꾸라지 중계 서버들은 서버 mesh 형태로 묶여 있기 때문에 새로운 서버가 추가가 되면 해당 신규 서버와 통신을 위한 채널을 생성하게 됩니다. 불행하게도 이 채널을 생성하는 과정에서 프로그램 버그가 있어 무한 loop 에 빠지게 되어 100% CPU 점유가 발생된 것입니다.

지속 시간

2014-10-15 오후 4 ~ 2014-10-16 오전 10시 (PDT 기준)

경과

긴급 점검에 들어갔으며, 원인 파악 후 모든 중계 서버에 대해 패치 작업을 수행하였습니다. 현재 모든 중계 서버에 대한 패치 작업이 완료된 상태입니다.

보상 정책

미꾸라지 보상 정책에 따라, 문제점을 보고해 주신 모든 분들에게 소정의 크레딧을 추가 지급해 드렸습니다.

장애 보고서 - 20141016 (last edited 2014-10-16 19:34:15 by loxch)