장애 발생 시 AI가 최초 원인 찾는 기술, 연내 출시 목표
근거 기반 분석 기능으로 AI 할루시네이션 문제 극복

이재광 와탭랩스 신뢰성 엔지니어링 그룹장은 장애 발생 시 최초 원인을 찾아내는 ‘구간 탐지’에 AI를 적용하고 있다고 밝혔다. /김동원 기자

개발자가 코드를 작성하고 시스템 장애가 발생했을 때 원인을 찾기 위해 여러 모니터링 도구를 오가며 로그를 뒤지는 시간이 몇 시간씩 걸리던 시대가 막을 내리고 있다. 이제 AI가 복잡한 시스템 전반을 분석해 “데이터베이스(DB)에서 먼저 문제가 시작됐고, 이로 인해 애플리케이션 성능이 저하됐다”며 구체적인 근거와 함께 장애 원인을 제시하는 시대가 열리고 있다.

이런 변화는 개발과 운영의 경계를 허무는 데브옵스(DevOps) 문화와 만나 더욱 가속화되고 있다. 과거 개발팀과 운영팀이 각각 다른 도구로 시스템을 바라보며 소통 지연을 겪던 문제가 AI 기반 통합 분석으로 해결되고 있는 것이다.

이재광 와탭랩스 신뢰성 엔지니어링 그룹장은 기자와 인터뷰에서 “3년 후에는 AI를 안 쓰고 있는 기업을 상상할 수 없을 것”이라고 전망했다. 그가 체감하는 변화의 속도는 가파르다. “2015년도부터 해마다 뭔가가 바뀌는 것 같은 느낌이었는데, 올해 2월부터는 매달 바뀌는 느낌이 든다”며 AI 기술 발전이 급격히 가속화되고 있다고 진단했다. 그러면 데브옵스 분야는 AI 기술로 어떤 변화를 맞이할까? 그와 자세한 얘기를 나눴다.

◇ 데브옵스 최대 난제 ‘구간 탐지’, AI가 해법 제시

데브옵스는 개발(Development)과 운영(Operations)의 합성어로, 전통적으로 분리되어 있던 두 조직을 하나로 통합하는 문화이자 방법론을 뜻한다. 과거에는 개발팀이 새로운 기능을 만들면 운영팀에 넘겨주고, 운영팀은 이를 서버에 배포하고 관리하는 식으로 역할이 나뉘어 있었다. 문제는 두 팀의 목표가 달랐다는 점이다. 개발팀은 새로운 기능을 빨리 출시하는 것이 목표였고, 운영팀은 서비스가 안정적으로 돌아가는 것이 최우선이었다. 이 때문에 개발팀이 만든 기능을 운영팀이 ‘안정성 문제’를 이유로 되돌려 보내는 일이 빈번했고, 소통과 조율에만 몇 주씩 걸리는 경우가 많았다.

하지만 시장 변화 속도가 빨라지면서 이런 방식으로는 경쟁에서 살아남기 어려워졌다. 2010년 초반만 해도 6개월짜리 프로젝트가 ‘짧은’ 프로젝트였지만, 이제는 몇 주 단위로 새로운 기능을 출시해야 하는 시대가 됐다. 이에 개발과 운영의 벽을 허물고 하나의 팀처럼 협력하자는 접근법인 데브옵스가 관심받기 시작했다.

하지만 현실에서는 여전히 어려운 과제들이 산적해 있다. 특히 장애 발생 시 최초 원인을 찾아내는 ‘구간 탐지’는 데브옵스 조직이 어려워하는 영역 중 하나다. 시스템이 복잡해질수록 문제의 선후 관계를 파악하기가 더욱 어려워지기 때문이다.

이재광 그룹장은 “시스템에 장애가 발생했을 때 가장 어려운 것은 어디서 문제가 시작됐는지 찾아내는 것”이라며 “애플리케이션도 느리고 DB도 느린 상황에서 둘 중 어느 쪽이 먼저 문제가 생겨서 다른 쪽에 영향을 준 건지 파악하기가 매우 어렵다”고 설명했다.

이런 문제를 해결하기 위해 와탭랩스는 AI 기술을 접목하고 있다. 일반적인 패턴을 바탕으로 어떤 구간에서 최초 문제가 발생했는지를 AI가 먼저 제안해 주는 방식이다. 이미 프로토타입은 개발된 상태이며, 조만간 서버 모니터링 상황 분석 AI 기능을 올해 안에 출시할 예정이다. 그는 “이 기술은 데브옵스 조직의 핵심 역량인 빠른 문제 해결 능력을 AI가 직접적으로 지원하는 사례가 될 것”이라고 말했다.

와탭랩스의 옵저버빌리티 플랫폼 사용 예시. /김동원 기자

◇ 옵저버빌리티, 데브옵스와 AI를 잇는 다리

와탭랩스의 핵심 솔루션인 옵저버빌리티 플랫폼은 데브옵스와 AI를 연결하는 중요한 다리 역할을 하고 있다.

기존 모니터링은 시스템 자원 사용량과 애플리케이션 성능을 각각 따로 관찰하는 수준이었다. 반면 옵저버빌리티는 로그(Logs), 메트릭(Metrics), 트레이스(Traces) 세 가지를 통합해서 분석한다. 로그는 시스템에서 발생하는 이벤트 기록을, 메트릭은 시스템 자원 사용량을, 트레이스는 애플리케이션 내부의 처리 과정을 각각 의미한다.

이 그룹장은 “CPU 사용량이 평소 20%에서 갑자기 90%로 올라갔을 때, 기존 방식으로는 운영팀이 개발팀이나 품질팀에 문의해야 하는 커뮤니케이션 비용이 발생한다”며 “하지만 옵저버빌리티로 보면 CPU는 높아졌지만 트랜잭션 응답시간에 변화가 없다면 서비스는 정상이고 원인만 천천히 파악하면 된다”고 설명했다.

이런 통합 관점이 중요한 이유는 AI가 학습하고 분석할 수 있는 풍부한 데이터를 제공하기 때문이다. 그는 “단편적인 정보가 아닌 시스템 전반의 상황을 종합적으로 파악할 수 있어야 AI가 정확한 분석과 제안을 할 수 있다”고 설명했다.

◇ AI 도입, 선택 아닌 필수… 근거 기반 분석으로 신뢰성 확보

이재광 그룹장이 내다보는 미래는 분명하다. AI는 이제 선택할 수 있는 기술이 아니라 생존을 위한 필수 요소가 됐다는 것이다.

그는 특히 MCP(Model Context Protocol)라는 AI 연결 표준이 등장하면서 상황이 더욱 명확해졌다고 분석했다. MCP는 AI가 다양한 서비스와 연결할 수 있게 하는 프로토콜로, 이를 지원하지 않는 서비스는 AI 생태계에서 소외될 수밖에 없다는 게 그의 분석이다. “10년 전에 데브옵스 도입을 고민했어야만 하는 애매한 판단의 시점이 있었다면, 지금이 바로 AI 도입에 관한 판단과 고민을 하는 시점”이라며 “10년 후에 지금을 보면 데브옵스를 도입 안 한 기업을 상상할 수가 없는 것처럼, 몇 달 뒤, 3년 뒤에는 AI를 안 쓰고 있는 기업을 상상할 수 없을 것”이라고 전망했다.

이재광 그룹장은 “10년 전에 데브옵스 도입을 고민했어야만 하는 애매한 판단의 시점이 있었다면, 지금이 바로 AI 도입에 관한 판단과 고민을 하는 시점”이라고 밝혔다. /김동원 기자

물론 AI가 데브옵스에 본격적으로 도입되면서 우려되는 부분도 있다. 대표적인 문제가 할루시네이션이다. 잘못된 AI 진단은 시스템 장애를 더욱 악화시킬 수 있기 때문이다.

와탭랩스는 이 문제에 대응하는 접근법을 제시하고 있다. AI가 단순히 결론만 제시하는 것이 아니라, 판단 근거를 함께 제공하는 방식이다.

기존 AI가 ‘지금 상황은 DB 문제인 것 같습니다’라고만 알려준다면, 와탭랩스의 AI는 ‘DB에서 이런 지표가 확인됐고, 애플리케이션에서는 이런 데이터가 나타났으며, 두 정보를 종합하면 일반적으로 DB에서 먼저 문제가 시작됐을 가능성이 높다’는 식으로 구체적인 분석 과정을 보여준다.

이 그룹장은 사용자가 AI를 맹신하지 않고 스스로 판단할 수 있는 기반을 제공하기 위해 이러한 기술을 개발하고 있다고 밝혔다.

◇ 옵저버빌리티 비용 혁신, 글로벌 확장의 발판 되다

와탭랩스는 기존 업계의 비용 구조를 혁신하는 모델도 제시했다. 이 그룹장의 말에 따르면, 옵저버빌리티 도구는 기업 인프라 비용의 10~30%를 차지한다. 데이터량 증가와 함께 비용 부담은 계속 커진다. 실제로 많은 고객들이 경쟁사 제품을 사용할 때 처음 한 달은 다양한 모니터링 기능에 만족하지만, 두 번째 달부터 예상보다 높은 청구서를 받고 당황하는 경우가 빈번하다. 세 번째 달부터는 아예 서비스 사용을 중단(롤백)하는 사례도 있다.

와탭랩스는 이런 문제를 근본적으로 해결하기 위해 로그 모니터링을 제외한 나머지 데이터 비용을 청구하지 않는 모델을 제시했다. 고객이 모니터링을 위해 수집하는 데이터양이 늘어나도 추가 비용을 받지 않고, 데이터 저장에 드는 비용은 회사가 모두 부담한다. 이는 단순히 가격 경쟁력을 확보하는 차원을 넘어, AI 분석에 필요한 대량의 데이터를 고객이 비용 부담 없이 활용할 수 있는 환경을 조성하는 기반이 됐다.

이러한 접근법은 글로벌 시장에서도 주목받고 있다. 와탭랩스는 일본에 법인을 설립했고, 동남아시아에서는 주요 금융사와 통신사의 레퍼런스를 확보했다.  특히 온프레미스와 클라우드를 동일한 기술로 지원하는 하이브리드 접근법이 강점으로 작용하고 있다. 규제가 엄격한 공공이나 금융 기관에서는 데이터를 외부 클라우드로 전송할 수 없는 경우가 많은데, 와탭랩스는 이런 요구사항을 만족시키면서도 최신 AI 기능을 제공할 수 있는 구조를 갖추고 있다.

그는 “동남아는 점점 빠르게 성장하고 있고, 그 레퍼런스로 이제 말레이시아랑 싱가포르까지 확장해 나갈 예정”이라며 “이 성공을 그대로 미국이나 북미 쪽으로 가져가는 것이 우리 목표”라고 말했다.

홈으로 이동 상단으로 이동