장애 보고서 - 20141016

원인 요약

미꾸라지 서버측 프로그램의 문제로 인해 거의 모든 중계 서버의 CPU 사용률이 100% 에 가깝게 됨에 의해 패킷 처리 및 응답 속도가 현저히 올라간 경우에 해당합니다. 또한 중앙 서버의 DB 서버 또한 과부하로 인해 제대로 웹 페이지가 열리지 않는 문제가 발생하였습니다.

원인 상세

2014-10-15 오후 4시 경 새로운 미꾸라지 중계 서버 US West (Seattle - Catalyst) 를 추가하는 과정에서 이 문제가 발생하였는데요, 모든 미꾸라지 중계 서버들은 서버 mesh 형태로 묶여 있기 때문에 새로운 서버가 추가가 되면 해당 신규 서버와 통신을 위한 채널을 생성하게 됩니다. 불행하게도 이 채널을 생성하는 과정에서 프로그램 버그가 있어 무한 loop 에 빠지게 되어 100% CPU 점유가 발생된 것입니다.

지속 시간

2014-10-15 오후 4 ~ 2014-10-16 오전 10시 (PDT 기준)

경과

긴급 점검에 들어갔으며, 원인 파악 후 모든 중계 서버에 대해 패치 작업을 수행하였습니다. 현재 모든 중계 서버에 대한 패치 작업이 완료된 상태입니다.

장애 보고서 - 20141016 (last edited 2014-10-16 18:42:37 by loxch)