장애 보고서 - 20150919

원인 요약

미꾸라지 중앙 서버의 장애로 인한 문제로, 1차적으로 PDT (Pacific Daytime Timezone) 기준으로 금요일 오후 1 시부터 3 시까지 포럼 시스템의 버그로 인해 CPU 가 100% spin 이 되는 것과 같은 효과가 남으로 인해 발생하였습니다. 하지만 이에 대한 패치를 했음에도 불구하고 해당 문제를 해결하는 과정에서 발생된 웹 서버의 parameter 조정으로 인해, 금요일 오후 11 시경 부터 사용자 space 상의 out of memory 가 발생되다, 토요일 오전 4시(?) 경부터 kernel 단의 out of memory 가 지속되며 중앙 서버의 모든 기능이 멈춘 것으로 파악하고 있습니다.

1 차 장애 지속 시간

2015-09-18 오후 1 시경 ~ 2015-09-18 오후 3 시 (PDT 기준)

2 차 장애 지속 시간

2015-09-19 오후 9 시경 ~ 2015-09-19 오전 9 시 (PDT 기준)

== 조치 및 경과

원격에서 해당 중아 서버에 연결하는 것 자체가 불가능하여 호스팅 업체 측에 연락하여 미꾸라지 중앙 서버를 강제 재시작하여 복구 작업을 진행하였습니다. 현재는 모든 기능이 정상 작동하고 있는 것으로 확인이 되며 추가적으로 다음과 같은 조치를 취하였습니다.

보상

이번 장애로 인한 사건에 대해서는 보상 정책에 따라 각 계정별 일괄 처리될 것입니다.

장애 보고서 - 20150919 (last edited 2015-09-19 16:57:40 by loxch)