장애 보고서 - 20150919

원인 요약

미꾸라지 중앙 서버의 장애로 인한 문제로, 1차적으로 PDT (Pacific Daytime Timezone) 기준으로 금요일 오후 1 시부터 3 시까지 포럼 시스템의 버그로 인해 CPU 가 100% spin 이 되는 것과 같은 효과가 남으로 인해 발생하였습니다. http://mudfish.net/forums/1/topics/6710 링크가 최초의 장애 공지입니다. 하지만 이에 대한 패치를 했음에도 불구하고 해당 문제를 해결하는 과정에서 발생된 웹 서버의 parameter 조정으로 인해, 금요일 오후 11 시경 부터 사용자 space 상의 out of memory 가 발생되다, 토요일 오전 4시(?) 경부터 kernel 단의 out of memory 가 지속되며 중앙 서버의 모든 기능이 멈춘 것으로 파악하고 있습니다.

1 차 장애 지속 시간

2015-09-18 오후 1 시경 ~ 2015-09-18 오후 3 시 (PDT 기준)

2 차 장애 지속 시간

2015-09-19 오후 9 시경 ~ 2015-09-19 오전 9 시 (PDT 기준)

조치 및 경과

원격에서 해당 중앙 서버에 연결하는 것 자체가 불가능하여 호스팅 업체 측에 연락하여 미꾸라지 중앙 서버를 강제 재시작하여 복구 작업을 진행하였습니다. 현재는 모든 기능이 정상 작동하고 있는 것으로 확인이 되며 추가적으로 다음과 같은 조치를 취하였습니다.

이 문제를 근본적으로 해결하기 위해서는 Software 적인 방법도 있겠지만, 제가 판단하기엔 더 이상 software 적인 방법으로 적용하기엔 한계점에 도달하였기 때문에 조만간 중앙 서버의 이전/확장 혹은 데이타베이스 서버의 이전/확장이 이루어질 계획입니다.

보상

이번 장애로 인한 사건에 대해서는 보상 정책에 따라 각 계정별 일괄 처리될 것입니다.

장애 보고서 - 20150919 (last edited 2015-09-19 17:49:53 by loxch)