Last updated at 2015-05-12 06:47:50

장애 보고서 - 20150510

원인 요약

미꾸라지 중앙 서버의 main 디스크 partition 이 full 이 되며, 이에 의존하는 Disk I/O 의 실패로 인해 홈페이지 서비스가 원활하게 이루어지지 않았습니다. 세부적인 원인에 대해서 말씀드리면 내부적으로 일을 처리하는 daemon 이 segfault 가 발생되며, 이로 인한 core dump 파일이 여러개 만들어 졌는데, 이 core dump 파일이 main 디스크 partition 으로 write 작업이 되도록 되어 있어 발생한 이슈였습니다.

지속 시간

2015-05-09 오후 10 시경 ~ 2015-05-10 오후 8 시 (KST 기준)

  • 22 ~ 24 시간 장애가 발생된 것으로 파악하고 있습니다.
  • 중앙 서버 장애로 인해, 새롭게 미꾸라지 로그인을 하거나 홈페이지 접속을 할 경우 해당 기능이 제대로 작동되지 않는 문제가 있었습니다.
  • 중계 서버들의 경우, 장애가 없었습니다.
  • 중앙 서버 단독의 문제였기 때문에, 기존에 접속되어진 사용자들은 영향을 받지 않으셨을 것입니다.

경과

현재는 모든 기능이 정상 작동하고 있는 것으로 확인이 되며 추가적으로 다음과 같은 조치를 취하였습니다.

  • main 디스크 partition 의 용량 확보 작업이 있었습니다.
  • 추후 재발 방지를 위해, 디스크 사용량에 대한 모니터링과 알람 기능을 넣었습니다.

보상

이번 장애로 인한 사건에 대해서는 보상 정책에 따라 각 계정별 일괄 처리될 것입니다.

장애 보고서 - 20150510 (last edited 2015-05-12 06:47:50 by loxch)