고품질 가상인간 제작 가능한 음성·영상합성 연구 내용

딥브레인AI는 ICASSP에 논문 2건이 채택됐다고 밝혔다. /딥브레인AI

인공지능(AI) 전문 기업 딥브레인AI는 영상 합성과 음성 합성을 다룬 연구 논문 2건이 세계 권위의 ‘국제 음향·음성·신호처리 학술대회(ICASSP)’에 채택됐다고 2일 밝혔다. 올해로 48주년을 맞이하는 ICASSP은 국제전기전자협회 신호처리학회가 주최하는 음향·음성·신호처리 분야 세계 최대 규모의 국제 학회다. ICASSP의 올해 주제는 ‘인공지능 시대의 신호처리’로, 작년 대비 2배에 가까운 6천 편 이상의 논문이 제출됐다.

이번에 선정된 영상 합성 논문은 기하 변환 병목을 통해 머리 움직임, 립싱크, 표정을 분리 제어하는 기술인 ‘디스코헤드(DisCoHead)’를 다룬 연구 내용이다. 머리와 얼굴의 신체 부위를 세분화해 상반신 이미지가 원하는 음성과 영상을 자연스럽게 따라가도록 컨트롤하는 방법을 다뤘다. 이 기술은 상반신의 자세와 발화 동작 및 비발화 표정을 자유롭게 조절할 수 있어 기존 방식보다 훨씬 자유도가 높은 고품질의 가상 인간을 제작할 수 있다.

음성 합성 논문에서는 중국어 문자소-음소 변환을 위한 ‘콘텍스트 모델링’ 기법을 다뤘다. 중국어 병음 변환 시 인접한 문자들 사이의 관계를 강조, 다음자의 병음 변환 정확도를 향상시키는 ‘문맥 강화 기법’을 제안했다. 회사는 이번 연구로 학습한 병음 변환 모델을 자사 중국어 음성합성 서비스에 적용해 음성합성의 품질을 한 단계 높일 예정이라고 밝혔다.

장세영 딥브레인AI 대표는 “세계 최고 권위를 지닌 학회에서 당사의 AI 휴먼 기술력을 다시 한번 입증할 수 있게 되어 매우 기쁘다“며 “앞으로도 학술적인 연구와 함께 사용자들이 더욱 편리하게 사용할 수 있는 AI 휴먼 서비스 고도화를 통해 생성 AI 분야 글로벌 선도 기업으로 발돋움해 나갈 것”이라고 말했다.

홈으로 이동 상단으로 이동