SKT·KT, 한국어 AI 자체 모델 오픈소스 공개... “소버린 AI 확장”-디지틀조선일보(디조닷컴 dizzo.com)

SKT ‘에이닷 엑스4.0’·KT ‘믿:음 2.0’ 허깅페이스에 공개

▲ 에이닷 엑스 4.0의 대규모 학습을 진행한 SK텔레콤 자체 구축 슈퍼컴퓨터 ‘타이탄’. /SK텔레콤

SK텔레콤·KT 등 국내 주요 통신사들이 자체 개발한 한국어 특화 인공지능(AI) 모델을 오픈소스로 공개하고 한국어 특화 AI 모델 확장에 나섰다.
SKT과 KT는 3일 각각 자체 개발한 한국어 특화 대형언어언어모델(LLM)을 세계적인 오픈소스 커뮤니티 허깅페이스를 통해 공개했다고 발표했다. 이들이 공개한 모델은 SKT의 에이닷 엑스(A.X) 4.0 지식형 모델, KT의 ‘믿:음 2.0’ 모델이다. 두 통신사가 공개한 모델은 모두 한국어 처리 능력과 한국 문화 이해도를 극대화한 모델이다.
국내 통신사들이 이번에 한국어 특화 AI 모델을 오픈소스로 공개한 배경에는 소버린 AI 전략이 깔려 있다. SKT와 KT 모두 자체 데이터센터와 한국어 데이터를 활용해 모델을 개발했다. AI 모델의 성능과 특성은 학습 데이터에 크게 좌우되는 만큼 각국 고유의 언어와 문화적 맥락이 담긴 데이터로 학습된 AI 모델을 보유하는 것이 소버린 AI의 핵심이다. 이러한 모델을 공개해 국내 AI 생태계 확산에 기여하고 글로벌 시장에서 한국적 AI를 확장한다는 전략이다.
SKT와 KT는 이번에 공개한 모델 이외에도 순차적으로 다른 모델들을 오픈소스로 공개할 예정이라고 밝혔다.
◇ SKT, ‘에이닷 엑스 4.0’ 오픈소스 공개
SK텔레콤이 이번에 오픈소스로 공개한 모델은 한국어 특화 LLM인 ‘A.X(에이닷 엑스) 4.0’ 표준 모델과, 경량 모델 2종이다.
에이닷 엑스 4.0은 오픈소스 모델인 Qwen2.5에 방대한 한국어 데이터를 추가로 학습시켜 국내 비즈니스 환경에 최적화된 성능을 발휘한다. 자체 설계한 토크나이저를 적용해 같은 한국어 문장 입력 시 챗GPT-4o보다 약 33% 높은 토큰 효율을 기록했다.
성능 평가에서도 우수한 결과를 보였다. 한국어 능력 평가 벤치마크인 KMMLU에서 78.3점을 기록해 GPT-4o(72.5점)를 앞섰고, 한국 문화와 언어 이해 벤치마크인 CLIcK에서도 83.5점으로 GPT-4o(80.2점)보다 높은 점수를 획득했다.
에이닷 엑스 4.0은 720억 개 매개변수의 표준 모델과 70억 개 매개변수의 경량 모델 2종으로 제공된다. 기업 내부 서버에 직접 설치하는 온프레미스 방식으로 운영할 수 있어 데이터 보안에 민감한 기업들도 안심하고 사용할 수 있다.
SKT는 이미 A.X 4.0을 지난 5월 에이닷 통화 요약 서비스에 적용해 활용하고 있다. 향후 SK그룹 내 다양한 서비스에 확대 적용할 계획이다. 또한 이달 중 수학 문제 해결과 코드 개발 능력이 강화된 추론형 모델을 공개하고 이미지와 텍스트 동시 처리가 가능할 수 있는 멀티모달 성능도 고도화할 계획이다.
또 소버린 AI 관점에서 A.X 3.0에 적용한 프롬 스크래치(From Scratch)5) 방식도 병행해 개발을 진행하고 있으며 후속 모델도 순차적으로 공개할 예정이다. 김지원 SK텔레콤 AI 모델 랩장은 “SK텔레콤의 다양한 서비스를 고도화하고, 기업 시장에서 한국어 특화 LLM으로 국내 비즈니스 환경에 최적화된 모델이 될 수 있도록 지속적인 기술 개발을 추진할 계획”이라고 말했다.
▲ KT 기술혁신부문 연구원들이 서초구 KT 우면연구센터에서 믿:음 2.0을 테스트하고 있는 모습. /KT

◇ KT, 한국적 AI 철학 담은 ‘믿:음 2.0’ 오픈소스
KT는 한국적 AI 철학을 담아 자체 개발한 언어모델 ‘믿:음 2.0’을 기업과 개인, 공공 누구나 상업적으로 활용할 수 있도록 오픈소스로 공개했다.
이번에 공개한 오픈소스는 믿:음 2.0은 115억 파라미터 규모의 ‘베이스(Base)’ 모델과 23억 파라미터 규모의 ‘미니(Mini)’ 모델 2종이다. 이 모델들은 모두 한국어와 영어를 지원한다.
KT 믿:음은 사전 학습부터 자체적으로 만든 한국적 독자 AI 모델로서 고품질 한국어 데이터를 준비하는 과정에서 모든 저작권을 확보하여 신뢰성을 높였다.
모델 개발 과정에서 국내 교육용 도서와 문학 작품, 법률 및 특허 문서, 각종 사전 등 다양한 산업·공공·문화 영역의 방대한 한국 특화 데이터를 확보해 학습에 활용했다. 저작권 이슈가 있는 데이터는 모두 제거하고 고품질 데이터만을 선별 가공했다고 KT측은 설명했다.
성능 평가에서도 뛰어난 결과를 보였다. KT와 고려대가 공동 개발한 한국어 AI 역량 평가 지표인 ‘Ko-Sovereign’ 벤치마크에서 유사 규모의 국내 기성 모델은 물론 글로벌 최고 수준의 오픈소스 모델을 능가하는 점수를 기록했다.
KT는 믿:음 2.0 개발 과정에서 리벨리온과 협력해 국산 AI 반도체에서의 동작을 최적화했다. 아울러 프렌들리AI와 함께 사용자가 허깅페이스를 통해 무료로 체험할 수 있는 환경도 제공한다.
KT는 마이크로소프트와 협력해 챗GPT-4에 한국적 사고를 추가 학습시키는 방식의 모델 또한 순차 공개할 예정이다.
신동훈 KT Gen AI 랩장(CAIO)은 “믿:음 2.0은 일반적인 생성 능력을 갖추면서도 한국의 문화와 언어를 깊이 이해하도록 고도화된 AI 모델”이라며 “국내 사용자들에게 고성능 한국적 AI 모델에 대한 새로운 대안을 제시하는 한편 글로벌 경쟁력을 갖추게 될 중요한 발판이 될 것”이라고 말했다.

구아현 기자 ainews@chosun.com

인더스트리

SKT·KT, 한국어 AI 자체 모델 오픈소스 공개... “소버린 AI 확장”

최신뉴스