“영상 속 등번호까지 추적”… 트웰브랩스, 영상 AI ‘마렝고 3.0’ 출시

미국 라스베이거스=김동원 기자
2025.12.02 04:32

4시간 영상·36개 언어 지원… 스포츠 등번호 추적 기능 탑재
아마존 베드록 통해 제공… 비용 50%↓·인덱싱 속도 2배↑
“영상 데이터 90% 제대로 못 써” 네이티브 파운데이션 구조로 시공

트웰브랩스가 출시한 ‘마렝고 3.0’ 활용 예시. /김동원 기자

영상 이해 인공지능(AI) 스타트업 트웰브랩스가 차세대 영상 파운데이션 모델 ‘마렝고 3.0’을 공식 출시했다. 1일(현지시각) 미국 라스베이거스에서 열린 AWS 리인벤트 2025에서 발표한 이번 모델은 영상 속 텍스트·음성·움직임·상황 맥락을 통합적으로 이해하는 것이 특징이다.

마렝고 3.0은 영상 속 대사와 3분 후 등장하는 동작을 연결해 해석하고, 사물·행동·감정·상황 변화를 시간 흐름에 따라 추적한다. 업계 처음으로 이미지와 텍스트를 동시에 검색하는 ‘복합 이미지 검색’ 기능과 특정 인물이나 제품을 등록해 찾는 ‘고유명사 검색’ 기능을 도입했다. 36개 언어를 지원하며, 최대 4시간 길이의 영상을 지원한다. 기존 모델인 마렝고 2.7 대비 2배 증가한 수치다.

회사 측은 테스트 결과 스토리지 비용 50% 절감, 인덱싱 속도 2배 향상 등 효율성이 개선됐다고 밝혔다.

◇ 업계 첫 스포츠 인텔리전스 탑재

마렝고 3.0은 업계 최초로 팀, 선수, 등번호, 동작을 추적하는 ‘스포츠 인텔리전스’ 기능을 제공한다. 프로 스포츠 리그에서 특정 선수의 결정적 플레이를 즉시 검색해 하이라이트를 빠르게 제작할 수 있다. 방송 분야에서는 수십 년치 아카이브에서 특정 유명인의 얼굴을 등록해 원하는 장면을 몇 초 만에 찾을 수 있다.

트웰브랩스 마렝고 3.0의 성능 비교. 과거 모델과 경쟁 모델 대비 우수한 복합 성능과 낮은 지연시간을 기록했다. /트웰브랩스 블로그 캡처

트웰브랩스의 멀티모달 아키텍처를 기반으로 구축된 마렝고 3.0은 영상을 살아있는 동적 시스템으로 취급한다. 오디오, 텍스트, 움직임, 비주얼, 맥락을 압축해 대규모로 검색하고 이해할 수 있는 형태로 만든다.

기존 프레임 기반 분석이나 이미지·오디오 모델의 단순 조합 방식과 달리, 영상 이해를 위해 처음부터 설계된 네이티브 파운데이션 구조를 갖췄다. 영상 전체를 시간·공간적으로 해석하며, 장면 간 연속성과 맥락을 자연스럽게 파악한다.

◇ AWS, 메랑고 3.0 제공 첫 클라우드 서비스 제공자

마렝고 3.0은 아마존 베드록과 트웰브랩스를 통해 이용할 수 있다. AWS는 마렝고 3.0을 제공하는 첫 번째 클라우드 서비스 제공자다. 기업 고객은 아마존 베드록을 통해 현재 AWS 환경에서 빠르고 안전하게 배포할 수 있다.

마렝고 3.0은 비디오 검색에서 70.2%, 텍스트 검색에서 88.3%의 복합 성능을 기록해 경쟁 모델 대비 우위를 보였다. /트웰브랩스

이재성 트웰브랩스 대표는 “전 세계 디지털 데이터의 90%가 영상인데 사람이 직접 분석하기에 너무 오래 걸리고, 기존 기술로는 모든 것을 파악하기 어려워 그동안 대부분 제대로 활용되지 못했다”며 “마렝고 3.0은 그동안 영상 이해 기술이 가졌던 한계를 완전히 뛰어넘는 모델”이라고 말했다.

니샨트 메타 AWS AI 인프라 부문 부사장은 “트웰브랩스의 영상 이해 기술은 수작업 중심이었던 영상 분석 프로세스에 전례 없는 속도와 효율성을 제공한다”며 “마렝고 3.0은 세계 최고 수준의 영상 이해 능력을 필요로 하는 고객들에게 최적의 솔루션이 될 것”이라고 평가했다.

트웰브랩스는 2021년 창업 이후 NEA, 엔비디아, 인덱스벤처스 등으로부터 누적 약 1억700만 달러(약 1573억 원 이상) 규모의 투자를 유치했다. CB 인사이트 선정 ‘세계 100대 AI 기업’ 및 ‘세계 50대 생성 AI 스타트업’에 선정되기도 했다.

페이스북 플러스친구 네이버포스트

“영상 속 등번호까지 추적”… 트웰브랩스, 영상 AI ‘마렝고 3.0’ 출시

4시간 영상·36개 언어 지원… 스포츠 등번호 추적 기능 탑재아마존 베드록 통해 제공… 비용 50%↓·인덱싱 속도 2배↑“영상 데이터 90% 제대로 못 써” 네이티브 파운데이션 구조로 시공

4시간 영상·36개 언어 지원… 스포츠 등번호 추적 기능 탑재
아마존 베드록 통해 제공… 비용 50%↓·인덱싱 속도 2배↑
“영상 데이터 90% 제대로 못 써” 네이티브 파운데이션 구조로 시공