클로드·GPT 넘어선 벤치마크 성능… “가격 대비 성능 최고”
업계 최초 4가지 입력·2가지 출력 통합 멀티모달 모델
맞춤형 모델 구축부터 에이전트까지, 노바 포지·액트 공개

AWS가 ‘리인벤트 2025’'에서 경량화 추론 모델부터 통합 몰티모달 모델까지 다양한 생성형 AI를 공개했다. /김동원 기자

아마존웹서비스(AWS)가 생성형 인공지능(AI) 경쟁에도 본격 속도를 낸다. 생성형 AI로 유명한 오픈AI, 앤트로픽, 구글과 경쟁해도 손색없는 AI를 내놨다. 미국 라스베이거스에서 열린 ‘AWS 리인벤트 2025’'에서 공개한 ‘노바 2(Nova 2)’ 모델 패밀리다. 이 모델은 클로드, GPT, 제미나이와 벤치마크 경쟁에서 일부 우위를 기록하며 경쟁력을 뽐냈다.

노바 2 패밀리는 총 4개 모델로 구성됐다. 경량 추론 모델 ‘노바 2 라이트(Lite)’와 고성능 추론 모델 ‘노바 2 프로(Pro)’, 실시간 음성 대화 모델 ‘노바 2 소닉(Sonic)’, 4가지 입력을 동시 처리하는 통합 멀티모달 모델 ‘노바 2 옴니(Omni)’다. AWS는 각 모델이 경쟁 모델 대비 우수한 벤치마크 성능과 가격 경쟁력을 확보했다고 밝혔다.

맷 가먼 AWS 최고경영자(CEO)는 2일(현지시각) 기조연설에서 “노바 2는 속도, 비용, 지능 간의 균형을 제공한다”며 “현재 수만 개 기업이 노바를 활용해 콘텐츠 제작부터 AI 에이전트 개발까지 다양한 작업을 수행하고 있다”고 말했다.

◇ 클로드·GPT·제미나이와 정면 승부, 벤치마크서 우위 입증

노바 2 라이트는 일상적인 워크로드를 위한 경량 추론 모델이다. 텍스트, 이미지, 동영상을 입력받아 텍스트를 생성하며, 사용자는 응답 전 모델의 ‘사고(thinking)’ 깊이를 조정해 지능과 속도·비용 간 균형을 맞춘다. 고객 서비스 챗봇, 문서 처리, 비즈니스 자동화 등이 주요 활용 사례다.

AWS가 공개한 벤치마크 결과에 따르면, 노바 2 라이트는 앤트로픽의 클로드 하이쿠 4.5 대비 15개 벤치마크 중 13개에서 동등하거나 우수한 성능을 기록했다. 오픈AI의 GPT-4o 미니와 비교해서는 17개 벤치마크 중 11개에서, 구글의 제미나이 2.5 플래시와 비교해서는 18개 벤치마크 중 14개에서 앞섰다. 문서 처리, 동영상 정보 추출, 코드 생성, 근거 기반 답변 제공, 다단계 에이전트 워크플로우 자동화 등의 영역에서 경쟁 모델 대비 강점을 보였다. AWS는 해당 지능 등급(intelligence class)에서 업계 최고 수준의 가격 대비 성능을 제공한다고 밝혔다.

노바 2 프로는 AWS의 최상위 추론 모델이다. 텍스트·이미지·동영상·음성을 처리해 텍스트를 생성하며, 에이전트 코딩, 장기 계획 수립, 정교한 문제 해결 등 복잡한 작업에 활용된다.

벤치마크 비교 결과 노바 2 프로는 클로드 소넷 4.5 대비 16개 벤치마크 중 10개에서, GPT-4.1 대비 16개 벤치마크 중 8개에서, 제미나이 2.5 프로 대비 19개 벤치마크 중 15개에서, 제미나이 3 프로 프리뷰 대비 18개 벤치마크 중 8개에서 동등하거나 우수한 성능을 나타냈다. 다중 문서 분석, 동영상 추론, 복잡한 지시사항 수행, 고급 수학 문제 해결, 에이전트·소프트웨어 엔지니어링 작업 등에서 강점을 보인다. 또한 지식 증류(knowledge distillation)를 통해 특정 도메인을 위한 더 작고 효율적인 모델로 능력을 이전할 수 있다.

노바 2 라이트와 프로는 웹 그라운딩(web grounding)과 코드 실행 기능을 내장했다. 최신 정보를 웹에서 검색하고 코드를 직접 실행할 수 있어, 응답이 훈련 데이터만이 아닌 최신 사실에 기반하도록 설계됐다.

맷 가먼 AWS CEO가 기조연설에서 노바2 경량화 모델의 성능을 발표하고 있다. 이 모델은 오픈AI의 GPT-4o 미니와 비교해서는 17개 벤치마크 중 11개에서, 구글의 제미나이 2.5 플래시와 비교해서는 18개 벤치마크 중 14개에서 앞섰다. /김동원 기자

◇ 실시간 음성 AI부터 4가지 모달리티 통합까지

노바 2 소닉은 스피치-투-스피치(speech-to-speech) 모델이다. 텍스트와 음성의 이해·생성을 통합해 실시간 대화형 AI를 구현한다. 표현력 있는 음성, 확장된 다국어 지원, 100만 토큰 컨텍스트 윈도우(context window)를 갖췄으며, 음성과 텍스트 간 전환을 지원한다.

이 모델의 특징은 비동기 작업 처리 방식이다. 항공편 예약과 같은 작업이 백그라운드에서 진행되는 동안에도 사용자가 주제를 전환하며 대화를 계속할 수 있다. 아마존 커넥트(Amazon Connect), 보니지(Vonage), 트윌리오(Twilio), 오디오코드(AudioCodes) 등 전화 통신 서비스와 통합되며, 라이브킷(LiveKit), 파이프캣(Pipecat) 같은 대화형 AI 프레임워크도 지원한다.

AWS는 노바 2 소닉이 오픈AI의 GPT 리얼타임(gpt-realtime)이나 제미나이 2.5 플래시 모델 대비 업계 최고 수준의 가격 대비 성능과 품질을 제공한다고 밝혔다. 고객 서비스 애플리케이션, AI 어시스턴트, 인터랙티브 음성 경험 등에 활용된다.

노바 2 옴니는 최근 많이 연구되고 있는 옴니모델이다. 텍스트·이미지·동영상·음성 입력을 처리하면서 텍스트와 이미지를 생성할 수 있다. 업계 최초의 통합 멀티모달 추론·생성 모델이라는 점에서 차별화된다.

가먼 CEO는 “오늘날 모델들은 한 가지 모달리티에서 추론하고 다른 모달리티로 출력하는 데는 뛰어나지만, 실제 세계에서는 여러 모달리티를 동시에 이해해야 한다”며 “노바 2 옴니는 단일 모델로 이 모든 것을 처리할 수 있다”고 설명했다.

처리 용량도 대폭 확대됐다. 최대 75만 단어, 수 시간 분량의 오디오, 긴 동영상, 수백 페이지의 문서를 처리할 수 있다. 전체 제품 카탈로그, 고객 후기, 브랜드 가이드라인, 동영상 라이브러리 등을 한 번에 동시 분석할 수 있어, 여러 특화 모델을 연결하는 데 따르는 비용과 복잡성을 제거한다는 것이 AWS의 설명이다.

활용 사례로는 마케팅 캠페인 제작이 제시됐다. 마케팅 팀이 다양한 형식의 제품 세부 정보를 분석해 헤드라인, 카피, 소셜 미디어 게시물, 시각 자료 등을 포함한 완전한 캠페인을 하나의 워크플로우에서 생성할 수 있다.

AWS는 노바 2 옴니가 문서·이미지·동영상·오디오에 대한 멀티모달 추론의 공개 벤치마크에서 강점을 보이며, 다른 선도적 이미지 생성 모델과 유사한 수준의 고품질 이미지를 생성할 수 있다고 밝혔다.

◇ 클라우드 강자의 AI 전략 “인프라부터 모델까지 통합 제공”

시스코(Cisco), 지멘스(Siemens), 수모로직(Sumo Logic), 트렐릭스(Trellix) 등 글로벌 기업들이 노바 2 모델을 도입했다. 에이전트 기반 위협 탐지, 동영상 이해, 음성 AI 어시스턴트 등 다양한 분야에서 활용되고 있다.

AWS는 노바 2와 함께 ‘노바 포지(Nova Forge)’와 ‘노바 액트(Nova Act)’도 공개했다. 노바 포지는 조직이 자체 데이터로 맞춤형 모델을 구축할 수 있는 서비스다. 부킹닷컴(Booking.com), 레딧(Reddit), 소니(Sony) 등이 이 서비스를 통해 자체 모델을 개발하고 있다.

노바 액트는 웹 브라우저 기반 작업을 자동화하는 AI 에이전트 서비스다. 스타트업 솔라시스템(Sola Systems)은 이를 활용해 월간 수십만 건의 워크플로우를 자동화했고, 허츠(Hertz)는 소프트웨어 제공 속도를 5배 높였다고 AWS는 전했다.

노바 2 라이트와 프로, 소닉은 아마존 베드록을 통해 즉시 사용할 수 있다. 노바 2 옴니는 조만간 제공될 예정이다.

가먼 CEO는 “수만 개 기업이 노바를 사용하고 있으며, 고품질 콘텐츠 제작부터 다단계 작업 자동화, AI 에이전트 개발까지 다양한 용도로 활용되고 있다”며 “속도, 비용, 지능 간의 최적 균형을 제공하는 것이 노바 2의 핵심”이라고 밝혔다.

홈으로 이동 상단으로 이동