포커스

[AWS 리인벤트 2025] 세일즈포스의 시스템 장애 해결사, AI 에이전트

기사입력 2025.12.08 09:10
월 1000시간 투입, 5배 성장 앞둔 운영 부담
베드록 멀티 에이전트로 자동 진단·복구
AI 에이전트로 월 150시간 운영 인력 절감
  • 미국 라스베이거스에서 열린 AWS 리인벤트 2025 엑스포에 설치된 세일즈포스 부스. /김동원 기자
    ▲ 미국 라스베이거스에서 열린 AWS 리인벤트 2025 엑스포에 설치된 세일즈포스 부스. /김동원 기자

    새벽 2시, 서버 장애 알림이 울린다. 엔지니어는 5만개의 데이터 지표와 방대한 로그를 뒤지며 원인을 찾아야 한다. 5분이면 해결될 문제를 찾는 데 5시간이 걸린다. 세일즈포스는 이 문제를 인공지능(AI) 에이전트로 해결했다.

    미국 라스베이거스에서 열린 AWS 리인벤트 2025에서 세일즈포스는 AI 에이전트를 활용해 1만400개 이상의 쿠버네티스 클러스터를 자동으로 관리하는 시스템을 공개했다. 이 시스템으로 장애 해결 시간을 30% 단축하고 월 150시간의 운영 인력을 절감했다고 밝혔다.

    ◇ 1만개 클러스터 운영, 월 1,000시간 투입의 한계

    세일즈포스의 하이퍼포스 플랫폼은 세일즈 클라우드, 서비스 클라우드, 마케팅 클라우드 등 모든 세일즈포스 서비스를 지원하는 차세대 인프라다. 1만400개 이상의 쿠버네티스 클러스터, 수십만 개의 컴퓨트 노드, 수백만 개의 파드(Pod)를 운영한다. 쿠버네티스는 컨테이너화된 애플리케이션을 자동 배포하고 관리하는 오픈소스 시스템이다.

    스리칸 라진(Srikan Rajin) 세일즈포스 소프트웨어 엔지니어링 수석 이사는 “엔지니어들이 매달 1000시간 이상을 운영 지원에 투입했다”며 “향후 2~3년 내 플랫폼이 5배 성장할 것으로 예상돼 AI 기반 자동화가 필수적”이라고 말했다.

  • 스리칸 라진(Srikan Rajin) 세일즈포스 소프트웨어 엔지니어링 수석 이사는 “엔지니어들이 매달 1000시간 이상을 운영 지원에 투입했다”며 “향후 2~3년 내 플랫폼이 5배 성장할 것으로 예상돼 AI 기반 자동화가 필수적”이라고 말했다.
    ▲ 스리칸 라진(Srikan Rajin) 세일즈포스 소프트웨어 엔지니어링 수석 이사는 “엔지니어들이 매달 1000시간 이상을 운영 지원에 투입했다”며 “향후 2~3년 내 플랫폼이 5배 성장할 것으로 예상돼 AI 기반 자동화가 필수적”이라고 말했다.

    장애가 발생하면 엔지니어는 5만개의 시계열 메트릭(metric)과 2PB(페타바이트)의 로그 데이터를 분석해야 한다. 빅라 멩갯먼(Vickra Mengatman) AWS 솔루션 아키텍트는 “이는 모니터링 문제가 아니라 데이터 간 연관성을 파악하지 못하는 인텔리전스 위기”라고 지적했다.

    ◇ 매니저·워커 에이전트 협업으로 자동 진단

    세일즈포스는 아마존 베드록의 멀티 에이전트 협업 기능으로 자동 복구 시스템을 구축했다. 장애 알림이 슬랙에 들어오면 매니저 에이전트가 작동한다. 과거 장애 대응 방법을 정리한 런런북(runbook) 지식과 인프라 구조 정보를 바탕으로 문제 해결 계획을 수립한다.

    이후 워커 에이전트들이 데이터를 수집한다. 프로메테우스 에이전트는 시스템 메트릭을, K-GPT 에이전트는 실시간 파드 로그와 이벤트를, 아르고CD 에이전트는 배포 상태를 각각 가져온다. 매니저 에이전트는 이 데이터를 종합 분석해 근본 원인을 파악한다.

    복구 에이전트는 파드 재시작, 노드 재시작, 리소스 증설 등의 조치를 실행한다. 라진 이사는 “자연어로 ‘이 배포의 CPU를 늘려줘’라고 요청하면 AI가 아르고CD 컨트롤러를 통해 자동 처리한다”고 설명했다.

  • 빅라 멩갯먼(Vickra Mengatman) AWS 솔루션 아키텍트는 장애 발생 시 많은 데이터를 분석해야 했던 점에 대해 “이는 모니터링 문제가 아니라 데이터 간 연관성을 파악하지 못하는 인텔리전스 위기”라고 지적했다.
    ▲ 빅라 멩갯먼(Vickra Mengatman) AWS 솔루션 아키텍트는 장애 발생 시 많은 데이터를 분석해야 했던 점에 대해 “이는 모니터링 문제가 아니라 데이터 간 연관성을 파악하지 못하는 인텔리전스 위기”라고 지적했다.

    AI의 오작동을 막기 위한 안전장치도 마련했다. AI가 실행할 수 있는 작업을 엄격히 제한하고, 모든 작업에 운영 안전장치를 적용했다. 파드를 재시작할 때는 파드 중단 예산(PDB)을 준수하고, 여러 노드를 동시에 재시작하지 않도록 제한했다. 중요한 작업은 온콜 엔지니어와 매니저의 2단계 승인을 거친다.

    ◇ 30% 빠른 해결, 지식 그래프로 고도화 계획

    세일즈포스는 AI 에이전트 도입으로 장애 해결 시간을 30% 단축했다. 월 150시간의 운영 인력을 절감해 약 1명분의 엔지니어가 다른 업무에 집중할 수 있게 됐다. 매주 작성하던 온콜 리포트는 AI가 슬랙, 알림 시스템, 관측 시스템에서 데이터를 수집해 자동 생성하면서 90%의 작업이 자동화됐다.

    라진 이사는 “런북의 구조와 정확성이 시스템 성공을 좌우한다”며 “중복되거나 상충되는 정보가 있으면 AI가 올바른 결정을 내릴 수 없다”고 강조했다. 세일즈포스는 런북 생성과 수정 시기를 명확히 정의하고 지속 업데이트하는 전략을 수립했다.

    세일즈포스는 향후 지식 그래프를 도입해 복잡한 연쇄 장애도 해결할 계획이다. 한 애플리케이션의 응답 지연이 다른 노드의 코어DNS 문제 때문이고, 이것이 다시 해당 노드의 네트워크 대역폭 고갈 때문이라는 식의 연결 고리를 AI가 스스로 파악하도록 하는 것이다.

  • AWS 리인벤트 2025에 설치된 세일즈포스 부스에서 참관객들이 관련 솔루션을 보고 있다. /김동원 기자
    ▲ AWS 리인벤트 2025에 설치된 세일즈포스 부스에서 참관객들이 관련 솔루션을 보고 있다. /김동원 기자
    한편 세일즈포스는 이번 행사 엑스포에 대형 부스를 설치하고 ‘에이전틱 엔터프라이즈(Agentic Enterprise)’를 주제로 AWS와의 협력을 전시했다. 기조연설에서도 세일즈포스 사례가 공개됐다. 아마존 베드록의 강화학습 기반 파인튜닝(RFT)을 활용해 기본 모델 대비 최대 73%의 정확도 향상을 달성했다는 내용이었다. 필 무이(Phil Mui) 세일즈포스 에이전트포스 소프트웨어 엔지니어링 수석 부사장은 “베드록 RFT로 특정 비즈니스 요구사항에서 큰 성과를 입증했다”고 말했다.

최신뉴스