동영상 생성 AI 모델 공개, 3D 애니메이션 등 높은 품질 영상 생성
-
알리바바 클라우드가 100개 이상의 대형언어모델(LLM) 큐원2.5 인공지능(AI) 모델을 오픈소스 커뮤니티에 배포했다. 기본 모델부터 인스트럭트 모델, 다양한 정밀도와 방식을 적용한 양자화 모델 등이다. 언어, 오디어, 비전 등 다양한 모달리티와 전문적인 코드, 수학 모델 등도 포함된다. 이를 토대로 글로벌 AI 발전을 이끈다는 방침이다.
알리바바 클라우드는 대표 연례행사인 압사라 컨퍼런스(Apsara Conference)에서 100개 이상의 신규 큐원2.5 모델을 공개하며, 해당 모델들을 오픈소스로 공개했다고 밝혔다. 회사 측에 따르면, 새롭게 공개한 큐원2.5 모델들은 0.5억에서 720억 개의 파라미터(매개변수)를 갖추고 있다. 한국어 포함 29개 이상 언어를 지원한다. 엣지, 클라우드 환경 모두에서 이용할 수 있어 자동차, 게임, 과학 연구 등 다양한 분야에서 활용 가능하다.
큐원 모델 시리즈는 2023년 4월 처음 출시됐다. 알리바바 클라우드는 이 모델을 허깅페이스를 비롯해 회사 오픈소스 커뮤니티 모델스코프 등의 플랫폼에 올려 4000만 건 이상의 다운로드를 기록했다. 이 모델들은 허깅페이스에서 5만 개 이상 모델 제작에 쓰였다.
조우징런(Jingren Zhou) 알리바바 클라우드 인텔리전스의 최고기술책임자(CTO)는 “(오픈소스 공개로) 모든 규모의 기업이 AI 기술을 활용할 수 있는 역량을 강화하고, 오픈소스 커뮤니티의 성장을 더욱 촉진할 것”이라며 “알리바바 클라우드는 다양한 산업에서 생성형 AI 기술의 광범위한 도입을 지원하기 위해 첨단 AI 인프라에 지속적으로 투자할 것을 약속한다”고 말했다.
알리바바 클라우드는 동영상 생성 멀티모달 기술도 선보였다. 이미지 생성 AI ‘통이 완샹(Tongyi Wanxiang)’의 새로운 텍스트-비디오 모델을 공개했다. 이 모델은 현실적인 장면부터 3D 애니메이션까지 다양한 스타일의 품질 높은 영상을 생성할 수 있다. 또한, 중국어와 영어 텍스트 지시를 기반으로 영상을 생성하고, 스틸 이미지를 동영상으로 변환할 수도 있다. 또한, 향상된 영상 재구성을 위해 고급 확산 트랜스포머(Diffusion transformer, DiT) 아키텍처를 탑재하고 있다.
이외에도 알리바바 클라우드는 큐원2-VL(Qwen2-VL)이라는 자사 시각 언어 모델(Vision language model, VLM)의 대규모 업데이트도 도입하고 있다. 큐원2-VL은 20분 이상 길이의 영상을 이해하고, 영상 기반의 질문 응답도 할 수 있다. 정교한 추론 및 의사결정 기능을 갖춘 큐원2-VL은 핸드폰, 자동차, 로봇에 통합될 수 있도록 설계되어 특정 작업의 자동화도 지원한다.
컴퓨팅 프로그래밍을 위해서는 큐원 기반의 이 AI 어시스턴트인 AI 디벨로퍼(AI Developer)도 출시해 요구 사항 분석, 코드 프로그래밍, 소프트웨어 버그 식별 및 수정과 같은 작업의 자동화를 돕고, 개발자가 핵심 업무에 더 집중하고 관련 기술을 더욱 발전시키도록 지원한다.
에디 우(Eddie Wu) 알리바바 클라우드 인텔리전스의 회장 겸 CEO는 “알리바바 클라우드는 AI 기술의 연구개발과 글로벌 인프라 구축에 그 어느 때보다 적극적으로 투자하고 있다”면서 “우리는 글로벌 고객에게 미래의 AI 인프라를 제공하고, 그들의 비즈니스 잠재력을 극대화하도록 돕는 것을 목표로 하고 있다”고 말했다.
- 김동원 기자 theai@chosun.com