데이터 분산 등 기본적 대응책 있었다면 충분한 대응 가능
11일 전 서비스 장애 발생에도 사고 키워… “총체적 점검 필요”

15일부터 오후 3시 30분쯤부터 서비스 장애가 발생한 카카오톡이 24시간이 지난 지금도 완전히 복구되지 않고 있다. /김동원 기자

15일부터 발생한 카카오의 대규모 서비스 장애는 충분한 사전 대응만 있었으면 사용자에게 큰 피해를 주지 않을 사안이라는 지적이 많다. 화재로 인한 ‘어쩔 수 없는 사고’가 아닌 카카오에 의한 ‘인재’라는 것이다.

카카오톡을 비롯한 카카오페이, 카카오T, 카카오맵 서비스는 지난 15일 오후 3시 30분쯤부터 서비스 장애가 발생했다. 서비스 장애는 24시간이 지난 지금도 계속되고 있다. 카카오톡 메시지 수신과 발신 기능이 복구됐고, 다음 뉴스 일부 서비스만 복구됐다. 그러나 여전히 카카오톡 사진 전송은 되지 않고 카카오T, 카카오맵 서비스는 원활한 접속이 되지 않고 있다. 그나마 가능한 메시지 기능마저 전송이 되다 말다 하는 등 불안정한 모습이다.

카카오는 이날 오전 7시 24분 공식 트위터를 통해 “현재 카카오톡은 일반채팅과 오픈 채팅에서 사진·동영상을 제외한 문자 메시지 수발신이 가능하다”며 “다만 복구 작업 중 사용자 접속이 증가해 메시지 발송이 원활하지 않을 수 있다”고 밝혔다. 또 “완전한 복구가 지연되고 있는 점 다시 한번 사과드린다”라고 덧붙였다.

카카오 대규모 장애는 15일 오후 3시 19분쯤 경기도 성남 판교의 SK C&C 데이터센터에 화재가 발생하면서 시작됐다. 카카오는 이 데이터센터에 약 3만2000대의 서버를 두고 있다. 주요 서비스의 데이터를 처리하는 서버가 화재로 인해 한순간에 멈춰서면서 서비스 먹통 사태가 발생한 것이다. 화재는 약 7시간 만에 진압됐지만 안전상 문제로 데이터센터의 전원 공급이 늦어지면서 카카오 서비스의 정상화는 계속 지연되고 있다.

◇서버 밀집시켜 뒀지만, 대규모 화재에 따른 ‘매뉴얼’은 없어

이번 서비스 장애는 데이터센터 화재로 인한 어쩔 수 없는 사안처럼 보일 수 있지만 카카오의 부주의로 인한 장애라는 지적이 나온다. 해당 데이터센터에 주요 서버를 밀집시켜놓고 화재로 인한 사고에 대한 대처는 고려하지 않은 탓이다.

양현서 카카오 부사장은 “카카오는 안양 등에도 데이터센터가 있지만 이곳에 서버를 약 3만2000대 정도 두면서 메인 센터로 삼았다”면서 “현재 1만2000개 정도의 서버가 복구됐고 2000∼3000대는 복구 작업이 진행 중”이라고 말했다. 이어 “본래 사고 발생 시 20분 내 복구가 매뉴얼이지만, 서버 손실량이 워낙에 크다”면서 “카카오톡 등 서비스가 완전히 복구되기까지 시간이 얼마나 더 걸릴지는 정확히 말하기 어렵다”고 입장을 밝혔다. 

즉 많은 양의 서버를 메인 센터에 밀집해 놓았지만, 이 서버가 한 번에 손실할지에 관한 매뉴얼은 준비하지 못해 피해가 컸다는 것이다.

이번 사고로 인한 카카오의 잘못은 네이버와 비교하면 더 도드라진다. 화재가 발생한 센터는 카카오 외에도 네이버, SK텔레콤, SK브로드밴드 등 국내 굵직한 IT 기업이 다수 입주해 있다. 건물의 지상 2층부터 지상 6층까지가 데이터센터로 활용된다. 

네이버도 카카오처럼 화재로 인해 서비스 장애가 발생했다. 네이버는 15일 오후 “검색, 뉴스, 카페, 블로그, 스마트스토어센터 등 서비스 일부에서 이용이 원활하지 않을 수 있다”고 공지했다. 하지만 네이버 서비스는 사용자들이 불편을 느낄 수준의 서비스 문제가 발생하지 않았다. 영수증 리뷰와 같은 라이브 커머스 서비스는 장애 발생 3시간 만에 복구됐다. 

그 원인은 ‘데이터센터 분산’에 있다. 네이버는 강원도 춘천에 자체 데이터센터를 두고 있고 일부 서비스 서버는 판교 등 다른 데이터센터에 분산해뒀다. 따라서 네이버는 데이터센터 한 곳에 화재가 발생했다고 해서 큰 피해를 발생시키지 않았다. 카카오도 수도권에 4곳의 데이터센터를 운영하고 있지만, 이번에 화재가 난 판교 데이터센터 외에는 트래픽을 소화할 수 있는 공간을 확보하지 않아 데이터 자체가 분산이 되지 않았다. 한 곳에 주요 서버를 밀집시켜 두고 필요한 안전대책은 세우지 않았던 탓에 사용자에게 고스란히 피해를 줄 수밖에 없었던 셈이다.

양 부사장은 “이중화 조치(같은 데이터를 여러 곳에 복제해두는 행위)에도 전원 공급이 차단된 상황이어서 서버를 증설해 트래픽을 전환하는 데 시간이 오래 걸리고 있다”며 “서버 3만 2000대가 전부 다운되는 것은 정보통신업계에서 유례를 찾기 어려운 상황이며, 우리가 예상하는 위험 대응 시나리오가 있었지만 (이번 화재는) 워낙 예상을 못 한 시나리오였기 때문에 대비책이 부족하지 않았나 보고 있다”고 잘못을 시인했다.

◇연이은 장애, “서비스 공급사로서 책임감 미흡” 지적도

이번 서비스 장애로 인해 이용자들의 불만이 계속해서 제기되고 있다. 멀티 프로필로 인한 사생활 노출, 업무 차질 등 다양한 불만이 나오는 상황이다. 특히 이번 서비스 장애는 지난 4일 이후 11일 만에 또다시 발생한 것으로 서비스 공급사의 책임을 카카오가 다하지 않고 있다는 지적도 나오고 있다. 

앞서 카카오톡은 11일 전인 지난 4일에도 20분 가까이 장애를 빚었다. 지난달 15일에는 카카오 서비스에서는 2시 27분께부터 2시 49분까지 약 22분간 포털 사이트 ‘다음’과 카카오톡 선물하기에서 로그인 페이지 접속 실패, 기존 로그인 유지 실패 등의 장애가 발생한 바 있다. 서비스 장애는 지난해에도 발생했다. 작년 7월 16일 오후에는 약 한 시간 40분간 카카오톡 이미지 수발신이 원활하지 않았고 5월 5일 밤에는 2시간 넘게 메시지 수발신이 안 되는 등 광범위한 장애를 빚었다.

이번 서비스 장애에 대해 정부도 예의주시하는 분위기다. 홍진배 과학기술정보통신부 네트워크정책실장은 윤석열 대통령의 지시로 이날 오전 11시 15분부터 방송통신재난상황실을 이종호 장관 직속 방송통신재난대책본부로 격상했다. 홍 정책실장은 “이번 상황을 매우 엄중히 여기고 있고 중요한 부가통신사업 시설에 대한 정보관리체계를 보완해 나갈 계획”이라며 “앞으로 제도적·기술적으로 보완할 방안을 적극적으로 검토할 계획”이라고 밝혔다. 이번 사태가 현행법 위반 소지가 있는지를 “방송통신사업법에 따라 어제부터 자료 제출 요구를 해 놓은 상황”이라며 “제출되는 자료와 상황 조사 결과를 분석한 뒤 위반 여부를 추후 발표하겠다”고 말했다.

홈으로 이동 상단으로 이동