SK텔레콤, 시각-언어모델 오픈소스로 공개

김동원 기자
2025.07.29 15:22

자체 LLM A.X 기반으로 제작
A.X 인코더는 3배 빠른 처리 속도 자랑
VL 라이트는 경량화에도 뛰어난 성능 입증

SK텔레콤이 에이닥엑스를 기반으로 한 비전 모델을 허깅페이스에 공개했다. /허깅페이스 캡처

SK텔레콤이 자사 대형언어모델(LLM) A.X를 기반으로 한 시각-언어모델과 범용 문서 해석 기술을 허깅페이스에 오픈소스로 공개했다. 이번 발표로 SK텔레콤은 한 달 만에 총 6개의 AI 모델을 연이어 선보이며 소버린 AI 경쟁력 확보에 속도를 내고 있다.

SK텔레콤이 자사 LLM A.X를 기반으로 한 시각-언어모델과 LLM 학습용 범용 문서 해석 기술을 선보였다고 29일 발표했다. 이날 오픈소스 커뮤니티 허깅페이스에 공개된 모델은 ‘A.X 인코더(Encoder)’와 ‘A.X 4.0 VL 라이트(Light); 2종으로, 학술 연구나 상업 이용에 자유롭게 활용할 수 있다.

SK텔레콤은 7월 한 달 동안 대규모 학습 기반 A.X 4.0 모델 2종, 프롬 스크래치 방식의 A.X 3.1 모델 2종에 이어 이번 2종을 추가하며 총 6개 모델을 발표했다. 회사는 프롬 스크래치 방식의 LLM 개발을 지속하는 한편 향후 A.X 4.0 추론형 모델 등을 통해 성능을 지속 향상시킬 계획이라고 밝혔다.

◇ A.X 인코더, 기존 대비 3배 빠른 추론 속도 구현

A.X 인코더는 자연어처리에서 입력 문장을 문맥으로 변환하고 다양한 처리 작업을 수행하는 핵심 구성요소다. SK텔레콤은 A.X 모델의 데이터 전 과정 처리를 위해 이 인코더를 개발했다.

A.X 인코더는 1억4900만개 매개변수를 바탕으로 자연어 이해 성능지표 평균 85.47점을 달성했다. 이는 기존 글로벌 오픈소스 모델 기반 ’RoBerTa-base‘의 성능지표 80.19점을 상회하는 수준이다.

특히 16,384개 토큰까지 처리가 가능해 기존 모델들의 512개 토큰보다 월등히 큰 문맥을 다룰 수 있다. 이를 통해 최대 3배의 추론속도와 2배의 학습속도를 구현했다. 이러한 대규모 고속 문서 처리 기술은 LLM 학습 외에도 AI 기반 다양한 문서 처리에 효율적으로 적용될 것으로 기대된다.

◇ A.X 4.0 VL Light, 작은 크기로 대형 모델 성능 구현

A.X 4.0 VL Light는 대규모 멀티모달 한국어 데이터셋으로 학습된 시각-언어모델이다. 한국어 관련 시각정보 및 언어 이해뿐만 아니라 표와 그래프 이해, 제조 도면 이해 같은 기업용 애플리케이션에서 뛰어난 성능을 제공한다.

70억 개 매개변수의 A.X 4.0 Light 모델 기반으로 개발돼 사용자 시스템에 쉽게 적용 가능하면서도 중형 모델 수준의 강력한 성능을 자랑한다.

한국어 시각 벤치마크에서 평균 79.4점을 기록하며, Qwen2.5-VL32B(73.4점)보다 작은 모델 크기에도 더 우수한 성능을 보였다. 한국어 텍스트 벤치마크에서는 평균 60.2점을 기록해 경량모델임에도 국내 모델 중 최상위권에 위치했다.

한국어 문화 및 맥락적 이해를 평가하는 멀티모달 벤치마크 K-Viscuit에서 80.2점, 복잡한 문서 구조와 차트 표를 이해하는 KoBizDoc 벤치마크에서 89.8점을 달성했다. 각각 Qwen2.5-VL32B 모델보다 뛰어나거나 비슷한 수준이다.

효율성 면에서도 동일한 한국어 데이터 입력 시 Qwen2.5-VL32B 대비 약 41% 적은 텍스트 토큰을 사용해 기업들의 비용 절감에 기여할 수 있다.

김태윤 SK텔레콤 파운데이션 모델 담당은 “독자적인 기술력 확보가 소버린 AI의 핵심인 만큼, 자체 역량을 높이고 컨소시엄 기업들과의 협업에도 박차를 가해 글로벌 최고 수준의 AI 경쟁력을 확보할 것”이라고 밝혔다.

페이스북 플러스친구 네이버포스트

SK텔레콤, 시각-언어모델 오픈소스로 공개

자체 LLM A.X 기반으로 제작A.X 인코더는 3배 빠른 처리 속도 자랑VL 라이트는 경량화에도 뛰어난 성능 입증

자체 LLM A.X 기반으로 제작
A.X 인코더는 3배 빠른 처리 속도 자랑
VL 라이트는 경량화에도 뛰어난 성능 입증