Last updated at 2015-09-19 17:49:53

장애 보고서 - 20150919

원인 요약

미꾸라지 중앙 서버의 장애로 인한 문제로, 1차적으로 PDT (Pacific Daytime Timezone) 기준으로 금요일 오후 1 시부터 3 시까지 포럼 시스템의 버그로 인해 CPU 가 100% spin 이 되는 것과 같은 효과가 남으로 인해 발생하였습니다. http://mudfish.net/forums/1/topics/6710 링크가 최초의 장애 공지입니다. 하지만 이에 대한 패치를 했음에도 불구하고 해당 문제를 해결하는 과정에서 발생된 웹 서버의 parameter 조정으로 인해, 금요일 오후 11 시경 부터 사용자 space 상의 out of memory 가 발생되다, 토요일 오전 4시(?) 경부터 kernel 단의 out of memory 가 지속되며 중앙 서버의 모든 기능이 멈춘 것으로 파악하고 있습니다.

1 차 장애 지속 시간

2015-09-18 오후 1 시경 ~ 2015-09-18 오후 3 시 (PDT 기준)

  • 2 시간 장애가 발생된 것으로 파악하고 있습니다.
  • 중앙 서버 장애, 그 중 웹 서버 장애로 인해 미꾸라지 로그인을 하거나 홈페이지 접속을 할 경우 해당 기능이 제대로 작동되지 않는 문제가 있었습니다.
  • 중계 서버들의 경우, 장애가 없었습니다.
  • 중앙 서버 단독의 문제였기 때문에, 기존에 접속되어진 사용자들은 영향을 받지 않으셨을 것입니다.

2 차 장애 지속 시간

2015-09-19 오후 9 시경 ~ 2015-09-19 오전 9 시 (PDT 기준)

  • 약 12 시간 장애가 발생한것으로 파악하고 있습니다. 시스템 상의 모든 프로세스 및 커널이 Out Of Memory 이슈로 인해 처음 오후 9 시 부터 새벽 2시까지 메모리 swapping 이 계속 발생되며 시스템이 느려졌고 이로 인해 DB 연결이 지연되며 오류가 발생하였습니다.
  • 중앙 서버의 문제였기 때문에 기존 연결된 사용자들은 이용에 문제가 없으셨겠지만, UI 를 이용한 세팅들은 모두 문제가 있으셨을 겁니다.

조치 및 경과

원격에서 해당 중앙 서버에 연결하는 것 자체가 불가능하여 호스팅 업체 측에 연락하여 미꾸라지 중앙 서버를 강제 재시작하여 복구 작업을 진행하였습니다. 현재는 모든 기능이 정상 작동하고 있는 것으로 확인이 되며 추가적으로 다음과 같은 조치를 취하였습니다.

  • 웹 페이지 접속시 발생되는 memory 사용량을 줄이는 패치를 하였습니다. 그로 인해 대시보드 접근시 포럼 게시물이 더 이상 표시되지 않게 됩니다. 생각보다 포럼 관련 query 처리가 CPU 를 많이 사용하는 것으로 파악했습니다.
  • 웹 데몬들의 parameter 들을 다시 조정하여 메모리 사용량을 줄이도록 하였습니다.
  • 중앙 서버의 Dynamic 메모리 및 CPU 를 업그레이드를 시도하였으나, 해당 업체의 computing resource 가 부족하여 이에 대한 별도의 요청을 해놓은 상태입니다.

이 문제를 근본적으로 해결하기 위해서는 Software 적인 방법도 있겠지만, 제가 판단하기엔 더 이상 software 적인 방법으로 적용하기엔 한계점에 도달하였기 때문에 조만간 중앙 서버의 이전/확장 혹은 데이타베이스 서버의 이전/확장이 이루어질 계획입니다.

보상

이번 장애로 인한 사건에 대해서는 보상 정책에 따라 각 계정별 일괄 처리될 것입니다.

장애 보고서 - 20150919 (last edited 2015-09-19 17:49:53 by loxch)