엔비디아, 텍스트 기반 3D 그래픽 생성하는 AI 모델 ‘라떼3D’ 공개
엔비디아(NVIDIA)가 텍스트 입력만으로 몇 초 만에 3D 그래픽을 만들어내는 생성형 AI를 공개했다.
25일 엔비디아에 따르면 생성형 AI 모델 ‘라떼3D(Large-scale Amortized Text-To-Enhanced3D Synthesis, LATTE3D)’는 가상 3D 프린터처럼 텍스트 프롬프트에 사용자가 요청사항을 입력하면 1초 안에 사물과 동물의 3D 이미지로 변환할 수 있다. 표준 렌더링 애플리케이션에 널리 사용되는 포맷으로 제작돼 비디오 게임, 광고 캠페인, 디자인 프로젝트 또는 로보틱스용 가상 훈련장 개발 등을 위한 가상 환경을 쉽게 구현할 수 있다.
산자 피들러(Sanja Fidler) 엔비디아 AI 리서치(research) 담당 부사장은 “1년 전만 해도 AI 모델이 이 정도 품질의 3D 비주얼을 생성하는 데 1시간이 걸렸지만, 이제는 10~12초 정도면 충분하다”며 “거의 실시간으로 텍스트를 3D로 생성할 수 있게 됐다"고 설명했다. 이러한 발전으로 라떼3D는 엔비디아 리서치 데모에 사용된 엔비디아 RTX A6000과 같은 단일 GPU에서 추론을 실행할 때 거의 즉각적으로 3D 형상을 생성할 수 있게 됐다.
라떼3D는 다양한 3D 모양을 생성해 사용자가 선택해 사용할 수 있도록 제공한다. ‘DSLR 카메라로 찍은 오리’라고 입력하면 청둥오리부터 색이 화려한 오리까지 다양한 오리를 생성한다. 사용자는 360도로 개체를 돌려가면서 확인할 수 있다. 이 가운데 선택된 개체는 몇 분 내에 더 높은 품질로 최적화된다. 더불어 사용자는 해당 이미지를 이미지 소프트웨어 애플리케이션이나 엔비디아 옴니버스(Omniverse)와 같은 플랫폼으로 전송할 수 있다. 이를 통해 오픈USD(Universal Scene Description, OpenUSD) 기반 3D 워크플로우와 애플리케이션을 사용할 수 있다.
연구진은 동물과 일상 사물이라는 두 가지 특정 데이터세트에 대해 라떼3D를 훈련시켰다. 훈련에는 엔비디아 A100 텐서 코어(Tensor Core) GPU가 사용됐고, 챗GPT(ChatGPT)를 통해 생성된 다양한 텍스트 프롬프트도 훈련했다. 사용자가 특정 3D 개체를 설명할 때 프롬프트에 입력할 수 있는 다양한 묘사 표현을 이해하는 능력을 높였다. 개 종류를 묘사하는 프롬프트에서는 모두 개 모양을 생성하도록 한 것.
또 라떼3D는 개발자가 다른 데이터 유형 AI를 훈련 시키면 다양한 도메인에서 활용할 수 있는 유연성을 갖고 있다. 기존에는 동물과 일상 사물 두 가지 주제를 넘어 다양한 주제의 이미지를 생성할 수 있다는 의미다. 예를 들어 3D 식물 데이터세트를 훈련한 라떼3D 버전은 조경 디자이너가 고객과 브레인스토밍 하면서 나무, 꽃 덤불, 다육식물로 정원 렌더링을 빠르게 작성하는 데 도움을 줄 수 있다.