과기정통부, '3차례 연속 장애' 카카오에 시정 조치 요구
상태바
과기정통부, '3차례 연속 장애' 카카오에 시정 조치 요구
이 기사를 공유합니다

카카오 판교 아지트.
카카오 판교 아지트.

컨슈머타임스=곽민구 기자 | 과학기술정보통신부(과기정통부)가 31일 3차례 발생한 카카오톡 서비스 장애 원인, 대응 복구 현황에 대한 카카오의 통신 재난 관리 계획의 이행 여부를 점검하고, 통신재난관리심의위원회를 개최해 카카오의 미흡 사항에 대한 시정 조치 요구 사항을 심의·의결했다.

과기정통부는 카카오에게 1개월 이내 개선 조치 계획을 수립해 제출하고, 3개월 이내에 시정결과를 제출하도록 할 계획이다.

첫 번째 장애는 당시 카카오톡 이용자의 약 80%가 카카오톡 메시지 발신 지연과 실패로 불편을 겪었을 것으로 추정되며, 장애의 원인은 카카오톡 서비스가 운영되고 있는 데이터 센터 서버의 파일을 업데이트하는 작업 중 기존 파일을 삭제하는 과정에서 오류가 발생했기 때문이다.

카카오는 지난 13일 장애 발생(13:44) 직후 서비스 이중화와 여유 서버를 가동(13:47)해 6분 만에 서비스를 복구(13:50)했다. 점검 결과 카카오는 실제 작업을 진행하기 전에 사전 테스트를 실시하지 않아 발생 가능한 오류에 대비하지 못한 것으로 확인됐다.

두 번째 장애의 경우 당시 카카오톡 이용자의 약 80%가 메시지 수·발신 실패로 불편을 겪었을 것으로 추정되며, 네트워크 부하 분산을 위한 내부 시스템 기능 개선 작업 중 발생한 오류가 원인이다.

카카오는 5월 20일 장애 발생(14:52) 직후 이전 장애와 동일하게 서비스 이중화를 가동(14:53)해 6분 만에 서비스를 정상화(14:58)했다.

점검 결과 실제 작업을 진행하기 전에 사전 테스트는 실시했으나 개발 결과물의 테스트 환경이 실제 카카오톡 운영 환경과 차이가 커 미리 장애 가능성을 식별하지 못한 것으로 확인됐다.

가장 길었던 5월 21일 장애는 당시 카카오톡 이용자의 약 8%에 영향을 미쳤을 것으로 추정된다. PC용 카카오톡 로그인 실패 및 모바일용 카카오톡 메시지 수·발신 지연이 있었다. 특히 서비스 이용률이 높은 아침 출근 시간에 54분간 장애가 발생해 이용자들의 불편이 컸다.

이번 장애는 두 번째 장애를 일으킨 서버의 오류를 미해결한 상태에서 동일 데이터 센터에 있는 다른 서버에 Java 프로그램 업데이트를 진행한 것이 원인이었다.

카카오는 장애 탐지(08:30) 즉시 자동화 도구 등을 이용해 복구를 시도하는 것과 동시에 장애 원인 분석 및 조치 방안을 검토(08:30~09:04)한 후 서비스 이중화를 가동(09:04)하고 추가적인 수동 복구 작업을 거쳐 서비스를 정상화(09:24)했다.

점검 결과 내부적으로 작업 통제를 하지 않아 전날 장애가 발생한 서버의 오류를 미해결한 상황에서 통제 없이 새로운 작업을 진행해 오류가 발생한 것으로 확인됐다.

과기정통부는 이번 장애의 원인 및 대응·복구 현황에 대한 카카오의 2024년 통신재난관리계획의 이행 여부를 점검하고 미흡 사항에 대해 시정을 요구할 예정이다.

카카오는 1개월 이내로 시정 요구 사항에 대한 개선 계획을 마련하여 제출하고, 3개월 이내에 시정한 결과를 과기정통부에 제출해야 한다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
투데이포토