Upload page content

You can upload content for the page named below. If you change the page name, you can also upload content for another page. If the page name is empty, we derive the page name from the file name.

File to load page content from
Page name
Comment

장애 보고서 - 20150919

원인 요약

미꾸라지 중앙 서버의 장애로 인한 문제로, 1차적으로 PDT (Pacific Daytime Timezone) 기준으로 금요일 오후 1 시부터 3 시까지 포럼 시스템의 버그로 인해 CPU 가 100% spin 이 되는 것과 같은 효과가 남으로 인해 발생하였습니다. http://mudfish.net/forums/1/topics/6710 링크가 최초의 장애 공지입니다. 하지만 이에 대한 패치를 했음에도 불구하고 해당 문제를 해결하는 과정에서 발생된 웹 서버의 parameter 조정으로 인해, 금요일 오후 11 시경 부터 사용자 space 상의 out of memory 가 발생되다, 토요일 오전 4시(?) 경부터 kernel 단의 out of memory 가 지속되며 중앙 서버의 모든 기능이 멈춘 것으로 파악하고 있습니다.

1 차 장애 지속 시간

2015-09-18 오후 1 시경 ~ 2015-09-18 오후 3 시 (PDT 기준)

  • 2 시간 장애가 발생된 것으로 파악하고 있습니다.
  • 중앙 서버 장애, 그 중 웹 서버 장애로 인해 미꾸라지 로그인을 하거나 홈페이지 접속을 할 경우 해당 기능이 제대로 작동되지 않는 문제가 있었습니다.
  • 중계 서버들의 경우, 장애가 없었습니다.
  • 중앙 서버 단독의 문제였기 때문에, 기존에 접속되어진 사용자들은 영향을 받지 않으셨을 것입니다.

2 차 장애 지속 시간

2015-09-19 오후 9 시경 ~ 2015-09-19 오전 9 시 (PDT 기준)

  • 약 12 시간 장애가 발생한것으로 파악하고 있습니다. 시스템 상의 모든 프로세스 및 커널이 Out Of Memory 이슈로 인해 처음 오후 9 시 부터 새벽 2시까지 메모리 swapping 이 계속 발생되며 시스템이 느려졌고 이로 인해 DB 연결이 지연되며 오류가 발생하였습니다.
  • 중앙 서버의 문제였기 때문에 기존 연결된 사용자들은 이용에 문제가 없으셨겠지만, UI 를 이용한 세팅들은 모두 문제가 있으셨을 겁니다.

조치 및 경과

원격에서 해당 중앙 서버에 연결하는 것 자체가 불가능하여 호스팅 업체 측에 연락하여 미꾸라지 중앙 서버를 강제 재시작하여 복구 작업을 진행하였습니다. 현재는 모든 기능이 정상 작동하고 있는 것으로 확인이 되며 추가적으로 다음과 같은 조치를 취하였습니다.

  • 웹 페이지 접속시 발생되는 memory 사용량을 줄이는 패치를 하였습니다. 그로 인해 대시보드 접근시 포럼 게시물이 더 이상 표시되지 않게 됩니다. 생각보다 포럼 관련 query 처리가 CPU 를 많이 사용하는 것으로 파악했습니다.
  • 웹 데몬들의 parameter 들을 다시 조정하여 메모리 사용량을 줄이도록 하였습니다.
  • 중앙 서버의 Dynamic 메모리 및 CPU 를 업그레이드를 시도하였으나, 해당 업체의 computing resource 가 부족하여 이에 대한 별도의 요청을 해놓은 상태입니다.

이 문제를 근본적으로 해결하기 위해서는 Software 적인 방법도 있겠지만, 제가 판단하기엔 더 이상 software 적인 방법으로 적용하기엔 한계점에 도달하였기 때문에 조만간 중앙 서버의 이전/확장 혹은 데이타베이스 서버의 이전/확장이 이루어질 계획입니다.

보상

이번 장애로 인한 사건에 대해서는 보상 정책에 따라 각 계정별 일괄 처리될 것입니다.