포커스

오픈AI, '소라' 공개…“상상 속 세상, 비디오로 구현해 줘”

기사입력 2024.02.16 20:51
텍스트만 입력하면 1분 분량 고화질 영상 생성
구글, 멀티모달 ‘제미나이 1.5 프로’ 공개로 확장 경쟁
  • 오픈 AI '소라'에 텍스트를 입력해 만든 영상.
    ▲ 오픈 AI '소라'에 텍스트를 입력해 만든 영상. "여러 마리의 거대한 매머드가 눈 덮인 초원을 밟고 다가옵니다. 그들의 긴 털은 걸을 때 바람에 가볍게 날립니다. 저 멀리 드라마틱 하게 눈 덮인 나무와 산이 있고, 오후 햇살, 태양, 뭉게구름이 낀 하늘이 있습니다. 거리는 따뜻하게 빛나고, 낮은 카메라 앵글로 매머드를 포착하고 있습니다”라는 텍스트를 입력해 생성된 비디오다. /오픈AI 엑스 캡처

    머릿속으로 상상한 세상을 영상으로 구현해 주는 생성형 인공지능(AI) 서비스가 공개됐다. 오픈AI가 15일(현지시각) 공개한 ‘소라(Sora)’다. 거대한 털복숭이 매머드가 넓은 초원에 뛰어노는 초월적인 세상, 벚꽃 사이로 눈이 내리는 아름다운 세상 등 현실에서는 볼 수 없는 장면까지 텍스트로만 입력하면 인공지능(AI)이 1분 분량의 고화질 영상을 만들어준다.

    오픈AI는 공식 홈페이지·X(전 트위터)를 통해 텍스트로 작성된 프롬프트만으로 동영상을 생성할 수 있는 소라를 공개했다. 더불어 다양한 프롬프트 예시와 영상을 게재하면서 오픈AI는 “모든 동영상은 소라가 생성한 동영상이고, 어떠한 수정을 하지 않았다”며 “AI가 물리적 세계를 이해하고 시각적 품질이 높고 텍스트 내용에 충실한 영상을 생성해 준다”고 설명했다.

    고품질의 비디오 생성을 위해 다양한 지속 시간과 종횡비, 해상도 비디오를 대량 학습했다. 오픈AI는 기술 보고서를 통해 “다양한 방법을 사용해 비디오 데이터 생성 모델링을 연구했다”고 밝혔다. 이러한 데이터의 유연성은 다양한 디바이스의 기본 화면 크기로 고품질의 영상을 생성할 수 있게 했다. 전체 해상도로 비디오를 생성하기 전에 작은 프로토타입 콘텐츠도 빠르게 생성할 수 있다.

    또 AI가 언어를 정확하게 이해하고 적합한 비디오를 생성할 수 있도록 비디오에 관해 설명돼 있는 캡션이 포함된 비디오를 학습시켰다. 달리3(DALL·E 3)에 적용된 시각 데이터를 훈련해 언어 이해 품질을 높였다.

    사용자의 짧은 프롬프트를 대형언어모델(LLM) GPT를 기반으로 상세한 캡션으로 변환시킬 수 있다. 다양한 캐릭터·행동·피사체와 배경 등 사용자가 제시한 세부 정보로 복잡한 장면을 생성할 수 있게 했다. 정적인 이미지를 움직임이 있는 영상으로 변환하거나 기존 비디오 영상을 확장하는 개념으로 생성을 할 수 있다.

    문제가 되는 ‘딥페이크’ 우려에 대해 오픈AI는 “잘못된 정보, 증오 콘텐츠, 편견과 같은 콘텐츠 전문 레드팀과 협력해 모델 안정성 평가를 진행하고 있다”면서 “현재 예술가와 영화 제작자 등 소수를 대상으로 소라 서비스를 제공할 것”이라고 밝혔다.

    오픈AI는 지속적해서 텍스트·이미지·영상 생성 서비스를 확장하고 있다. ‘GPT스토어’ 출시로 생성형 AI 스토어 시장 확장도 빠르게 진행되고 있으며, 이미 300만 개의 챗봇이 등록돼 그 규모는 애플 스토어(178만 개)를 뛰어넘었다.

  • 구글이 초거대 AI '제미나이 1.5 프로'를 16일 공개했다. /구글
    ▲ 구글이 초거대 AI '제미나이 1.5 프로'를 16일 공개했다. /구글

    AI 생태계 확장 경쟁도 치열하다. 특히 오픈AI와 구글은 생성형 AI 기술을 확장해 고유의 AI 생태계를 만들고 있다. 구글은 16일 초거대 AI ‘제미나이 1.5’를 공개하면서 방대한 텍스트·이미지 단숨에 처리할 수 있다고 강조했다.

    특히 구글은 오픈AI GPT-4 터보를 견제했다. 구글은 “이전 모델인 중형 멀티모달 모델 ‘제미나이 1.0 프로’보다 87% 향상된 성능을 보인다”면서 “GPT-4 터보 토큰규모(12만8000개)를 훌쩍 뛰어넘는 최대 100만 개 규모”라며 '제미나이 1.5 프로' 성능을 강조했다. 이는 약 1시간 분량의 동영상, 11시간 분량의 음성 파일, 3만 줄 이상의 코드, 70만 단어 이상의 텍스트 정보를 한 번에 처리할 수 있는 규모다.

    또 구글은 '제미나이 1.5 프로'가 복잡한 추론을 이해·처리할 수 있는 능력을 보유했다고 설명했다. 영화의 줄거리와 사건을 분석하고 영화에 나타난 사소한 부분도 추론할 수 있다. 방대한 양의 문서도 내용·이미지 추론이 가능하다.

최신뉴스