Upload page content

You can upload content for the page named below. If you change the page name, you can also upload content for another page. If the page name is empty, we derive the page name from the file name.

File to load page content from
Page name
Comment

Revision 3 as of 2015-09-19 17:11:12

장애 보고서 - 20150919

원인 요약

미꾸라지 중앙 서버의 장애로 인한 문제로, 1차적으로 PDT (Pacific Daytime Timezone) 기준으로 금요일 오후 1 시부터 3 시까지 포럼 시스템의 버그로 인해 CPU 가 100% spin 이 되는 것과 같은 효과가 남으로 인해 발생하였습니다. http://mudfish.net/forums/1/topics/6710 링크가 최초의 장애 공지입니다. 하지만 이에 대한 패치를 했음에도 불구하고 해당 문제를 해결하는 과정에서 발생된 웹 서버의 parameter 조정으로 인해, 금요일 오후 11 시경 부터 사용자 space 상의 out of memory 가 발생되다, 토요일 오전 4시(?) 경부터 kernel 단의 out of memory 가 지속되며 중앙 서버의 모든 기능이 멈춘 것으로 파악하고 있습니다.

1 차 장애 지속 시간

2015-09-18 오후 1 시경 ~ 2015-09-18 오후 3 시 (PDT 기준)

  • 2 시간 장애가 발생된 것으로 파악하고 있습니다.
  • 중앙 서버 장애, 그 중 웹 서버 장애로 인해 미꾸라지 로그인을 하거나 홈페이지 접속을 할 경우 해당 기능이 제대로 작동되지 않는 문제가 있었습니다.
  • 중계 서버들의 경우, 장애가 없었습니다.
  • 중앙 서버 단독의 문제였기 때문에, 기존에 접속되어진 사용자들은 영향을 받지 않으셨을 것입니다.

2 차 장애 지속 시간

2015-09-19 오후 9 시경 ~ 2015-09-19 오전 9 시 (PDT 기준)

  • 약 12 시간 장애가 발생한것으로 파악하고 있습니다. 시스템 상의 모든 프로세스 및 커널이 Out Of Memory 이슈로 인해 처음 오후 9 시 부터 새벽 2시까지 메모리 swapping 이 계속 발생되며 시스템이 느려졌고 이로 인해 DB 연결이 지연되며 오류가 발생하였습니다.

조치 및 경과

원격에서 해당 중아 서버에 연결하는 것 자체가 불가능하여 호스팅 업체 측에 연락하여 미꾸라지 중앙 서버를 강제 재시작하여 복구 작업을 진행하였습니다. 현재는 모든 기능이 정상 작동하고 있는 것으로 확인이 되며 추가적으로 다음과 같은 조치를 취하였습니다.

  • 웹 페이지 접속시 발생되는 memory 사용량을 줄이는 패치를 하였습니다. 그로 인해 대시보드 접근시 포럼 게시물이 더 이상 표시되지 않게 됩니다.
  • 웹 데몬들의 parameter 들을 다시 조정하여 메모리 사용량을 줄이도록 하였습니다.
  • 중앙 서버의 Dynamic 메모리 및 CPU 를 업그레이드를 시도하였으나, 원인 모를 문제로 실패하고 호스팅 업체에 문의를 해놓은 상태입니다.

보상

이번 장애로 인한 사건에 대해서는 보상 정책에 따라 각 계정별 일괄 처리될 것입니다.