페르소나에이아이, 소버린AI 구축 속도… 사투리인식 음성AI 모델 선봬
글로벌 인공지능(AI) 패권 경쟁이 심화하면서 각국이 자국의 언어·데이터·인프라를 기반으로 한 ‘소버린 AI(Sovereign AI)’ 구축에 속도를 내고 있다.
소버린 AI는 단순히 AI를 보유하는 차원을 넘어, 국가의 언어와 문화, 산업 데이터를 외부 의존 없이 스스로 통제·운영할 수 있는 AI 주권을 의미한다. 특히 음성 AI는 언어 주권을 직접적으로 좌우하는 핵심 기술로 평가된다.
이러한 흐름 속에서 페르소나에이아이(대표 유승재, 이하 페르소나AI)는 2년간의 집중 개발 끝에 한국어의 특성을 정밀하게 구현한 차세대 음성 AI 모델 'SSTT(Sovereign AI Speech to Text)'를 공개했다.
해당 모델은 4,000만 개 이상의 한국어 발화 데이터셋(약 5만 시간 이상 음성 데이터)을 학습해 방대한 이해도를 갖췄다. 전체 학습량의 4분의 1 수준인 13,200시간을 사투리 데이터에 할애했다. 이를 통해 경상·전라·충청·강원·제주 등 5대 권역별 방언과 고유 어휘를 정밀하게 구분한다. 또한, AI가 인식하기 어려운 짙은 방언, 고유 어휘, 60대 이상 고령 화자의 음성 특성까지 반영해 세대와 지역을 아우르는 소통이 가능하다는 설명이다.
특히, 표준어 중심의 기존 음성 인식 한계를 넘어, 한국어 사투리 인식과 화자분리가 가능하도록 설계된 점이 큰 특징으로 실시간 및 오프라인에서도 동작한다. 전 처리 기능을 지원해 잡음·반향 감쇄, 원거리 인식을 위한 자동이득제어(AGC), 딥러닝 기반 음성구간 검출, 화자변곡점 검출과 같은 음성기술이 집약돼 있다.
기존의 음성 인식 모델(STT, Speech to Text)은 소리를 텍스트로 변환하는 핵심 기술이지만, 사투리·억양·속도 차이로 인해 실제 산업 현장에서는 인식 정확도가 낮다는 한계가 있었다. 이로 인해 콜센터, 공공 민원, 의료·제조 현장 등 음성 인식 수요가 높은 분야에서도 시장 확산이 더디게 진행돼 왔다.
페르소나AI의 SSTT는 이러한 문제를 정면으로 해결했다. 최대 20명까지 화자 분리가 가능해, 기존 4~5명 수준에 머물렀던 기술 대비 획기적인 성능 향상을 이뤘다. 다자간 동시 대화 상황에서도 ‘누가, 어떤 말을 했는지’를 구분할 수 있어, 회의 기록, 현장 관제, 다중 사용자 인터페이스 등 활용 범위를 크게 확장시켰다.
한편, 페르소나AI는 AI 모델 개발부터 산업별 솔루션화까지 수행하는 기업으로, AICC(AI 컨택센터)와 생성형 AI(Gen AI) 분야를 주력으로 하고 있다. 최근에는 작년에 이어 CES 2026 혁신상을 수상하며 2년 연속 3관왕을 기록하기도 했다.
페르소나AI 관계자는 “소버린 AI 경쟁에서 가장 중요한 것은 단순한 모델 규모가 아니라, 자국 언어와 실제 산업 환경을 얼마나 깊이 이해하느냐”라며, “SSTT는 한국형 소버린 AI의 실질적 기반이 될 수 있는 핵심 모델”이라고 말했다.