포커스

[AWS 리인벤트 2025] 이재성 트웰브랩스 CEO가 풀어낸 영상 AI 활용 해법(인터뷰)

기사입력 2025.12.02 09:00
마렝고 3.0의 혁신 “작은 모델, 큰 성능, 낮은 가격”
오픈AI·구글과 다른 길… 대규모 아카이브 검색에 집중
“전 세계 영상 데이터 상당 부분 인덱싱이 목표”
  • 이재성 트웰브랩스 CEO는 최근 출시한 영상 AI 모델 마렝고 3.0를 소개하며 “비용 최적화에 상당한 시간을 할애했다”고 밝혔다. /김동원 기자
    ▲ 이재성 트웰브랩스 CEO는 최근 출시한 영상 AI 모델 마렝고 3.0를 소개하며 “비용 최적화에 상당한 시간을 할애했다”고 밝혔다. /김동원 기자

    세계 데이터의 90%가 영상이지만, 대부분은 검색이 불가능하다. 스포츠 경기 수만 시간, 방송 아카이브 수십만 시간, 기업 교육 영상이 하드디스크에 잠들어 있다. 

    한국 인공지능(AI) 스타트업 트웰브랩스는 이 ‘잠자는 영상’을 깨우는 방법을 찾았다. 이번에 출시한 영상 AI 모델 ‘마렝고 3.0’은 성능을 높이면서도 고객 비용을 절반으로 낮췄다. NFL부터 SBS까지, 영상 자산을 가진 기업들이 클라우드로 향하고 있다.

    ◇ 100만 시간 영상, 비용 절반에 검색 가능

    이재성 트웰브랩스 CEO는 1일(현지시간) 미국 라스베이거스에서 열린 AWS 리인벤트 2025에서 기자와 만나 “마렝고 3.0은 비용 최적화에 시간을 상당히 많이 사용했다”고 말했다.

    마렝고는 트웰브랩스의 영상 검색 모델이다. 영상이 입력되면 이를 임베딩(숫자 벡터)으로 변환해 검색 가능하게 만든다. 문제는 엔터프라이즈 고객들이 갖고 있는 영상의 규모였다. 100만 시간, 200만 시간 단위의 영상 아카이브를 인덱싱하려면 비용이 천문학적으로 늘어난다.

    이번 3.0 버전에서는 임베딩 차원을 기존 1024에서 512로 절반으로 줄였다. 파일 크기가 절반이 되면서 스토리지 비용도 50% 감소했다. 인덱싱 속도는 2배 빨라졌다. 이 CEO는 “엔터프라이즈 고객들이 100만 시간 영상을 인덱싱할 때 비용이 거의 반토막 났다”며 “이제 고객들이 보유한 모든 영상을 다 인덱싱해서 검색 가능하게 바꿀 수 있는 시대가 다가오고 있다”고 설명했다.

    비용 절감의 비결은 ‘멀티 벡터’ 방식이다. 영상 안에는 비주얼, 오디오, 시간적 흐름 등 여러 모달리티가 있다. 마렝고 3.0은 각 영상이 입력되면 어떤 요소는 무시해도 되고 어떤 것은 집중해야 하는지 스스로 판단한다. 시큐리티 모니터 카메라처럼 같은 장면이 반복되는 영상과, 매 순간이 중요한 스포츠 영상을 다르게 처리하는 식이다.

    대부분의 기업들이 대형비디오언어모델(VLM)을 사용해 임베딩을 뽑는 것과 달리, 트웰브랩스는 모델 크기를 56B(560억 파라미터) 이하로 유지하면서도 비디오 프리프로세싱 단계에서 AI가 영상을 어떻게 봐야 하는지 판단하게 했다.

    이 CEO는 “모델이 풀어야 할 문제는 모델이 풀지만, 엔지니어링으로 풀 수 있는 문제는 엔지니어링으로 푸는 것이 트웰브랩스의 제품 철학”이라고 강조했다.

    ◇ 오픈AI·구글과 다른 길, ‘영상 이해’에 집중

    마렝고 3.0의 또 다른 차별점은 ‘네이티브 파운데이션 구조’다. 기존 영상 처리 방식은 1초에 한 프레임씩 이미지를 추출해 텍스트로 변환한 뒤 언어모델에 입력하는 방식이었다. 이 CEO는 “이렇게 하면 공간적·시간적 맥락을 다 잃게 된다”며 “해가 지는 장면을 샘플링해서 이미지로 넣으면 언어모델이 해가 지는건지 뜨는건지 헷갈려한다”고 설명했다.

  • 트웰브랩스가 출시한 ‘마렝고 3.0’ 활용 예시. /김동원 기자
    ▲ 트웰브랩스가 출시한 ‘마렝고 3.0’ 활용 예시. /김동원 기자

    트웰브랩스는 프레임 추출 방식을 버리고 영상을 ‘비디오 청크(덩어리)’로 통째로 학습시킨다. 모델 자체가 영상을 이해하도록 설계했다. 이를 위해 비디오 프리프로세싱 단계에서 특정 영상을 어떻게 봐야 하는지, 어떤 구간을 집중해야 하는지 알려주는 AI 레이어를 추가했다.

    이 같은 접근은 오픈AI나 구글이 주력하는 영상 생성 모델과는 다른 방향이다. 이 CEO는 “영상 생성 모델이 다음 프레임을 자연스럽게 생성한다고 해서 영상 내용을 잘 이해하고 있다고 연구적으로 밝혀진 건 아니다”라며 “트웰브랩스 고객들은 2시간짜리 영상 하나가 아니라 10만 시간, 100만 시간 아카이브에서 빠르게 검색해야 한다”고 말했다.

    10페타바이트급 영상 아카이브는 멀티모달 대형언어모델(LLM)의 컨텍스트 윈도우에 넣을 수 없다. 트웰브랩스는 영상 생성이 아닌 영상 이해, 그중에서도 대규모 아카이브 검색이라는 틈새시장을 파고들었다.

    이 CEO는 “엔터프라이즈 고객들은 이제 ‘트웰브랩스냐 오픈AI냐’를 선택하지 않는다”며 “트웰브랩스로 검색하고 그 결과를 언어모델에 연결해서 에이전트를 만드는 방식으로 함께 활용한다”고 설명했다. 실제로 에이전트가 영상을 자동 검색하면 트래픽이 10~50배 증가한다. 작고 빠른 모델이 필수인 이유다.

  • 이재성 트웰브랩스 CEO는 “엔터프라이즈 고객들은 이제 ‘트웰브랩스냐 오픈AI냐’를 선택하지 않는다”며 “트웰브랩스로 검색하고 그 결과를 언어모델에 연결해서 에이전트를 만드는 방식으로 함께 활용한다”고 설명했다. /김동원 기자
    ▲ 이재성 트웰브랩스 CEO는 “엔터프라이즈 고객들은 이제 ‘트웰브랩스냐 오픈AI냐’를 선택하지 않는다”며 “트웰브랩스로 검색하고 그 결과를 언어모델에 연결해서 에이전트를 만드는 방식으로 함께 활용한다”고 설명했다. /김동원 기자

    ◇ 아마존 베드록 5개월 만에 3만 엔터프라이즈 고객

    트웰브랩스는 올해 7월 마렝고 2.7 모델을 아마존 베드록에 올렸다. 5개월 만에 PoC(개념증명), 파일럿, 프로덕션까지 포함해 3만 개 이상의 엔터프라이즈 고객을 확보했다. 이전까지 자체 서비스를 이용하던 개발자는 4만 명 수준이었지만, 대부분 스타트업이나 개인이었다. 베드록 입점 이후 대형 엔터프라이즈 고객이 급증했다.

    매출의 90%가 북미에서 발생하며, 그중 절반 이상이 미디어·엔터테인먼트 기업이다. 주요 고객으로는 NFL, MLSE(캐나다 최대 스포츠 엔터테인먼트 기업), 한국의 SBS 등이 있다. MLSE는 트웰브랩스 모델로 MLS 하이라이트 영상을 자동 생성하고 있다.

    이 CEO는 “영상 데이터는 아직도 온프레미스가 많다”며 “클라우드로 옮겨갈 이유가 없었는데, 트웰브랩스 모델을 통해 검색이 가능해지고 AI 기술 접목이 쉬워지면서 클라우드 마이그레이션 2.0이 비디오로 오고 있다”고 말했다. AWS와는 이 같은 가설 아래 긴밀하게 협력하고 있다.

    트웰브랩스는 내년 1분기 영상 분석 모델인 페가수스의 대규모 업데이트를 예고했다. 마렝고와 페가수스를 조합한 비디오 에이전트 모델도 출시할 예정이다. 유럽 시장 공략을 위해 영국 지사도 준비 중이다. 이 CEO는 “향후 4~5년간 전 세계 영상 데이터의 상당 부분을 트웰브랩스 모델로 인덱싱하는 것이 목표”라고 밝혔다.

최신뉴스