한국어 LLM 리더보드, 성능 지표 추가해 평가 개선
한국어 거대언어모델(LLM) 리더보드 추론 지표가 추가되면서 평가 지표가 개선된다.
한국지능정보사회진흥원(NIA은 업스테이지가 공동 운영하는 ‘Open Ko-LLM 리더보드’ 평가 지표를 추가하고 업그레이드돼 운영될 예정이라고 11일 밝혔다.
‘Open Ko-LLM 리더보드’는 지난해 9월, 민관 협업을 통해 개설됐다. 학계 및 업계 다양한 참여로지난 5월 말까지 참여한 LLM(초거대언어모델) 모델 수가 1,500개를 넘어섰고, 최고 점수는 70.7점을 기록했다. 이는 세계적으로 인정받는 허깅페이스의 LLM 리더보드(최고점 81.2점)에 근접한 수치다.
NIA와 업스테이지는 Open Ko-LLM 리더보드의 지속적인 발전과 개선을 위해 우선 추론 관련 지표를 추가해 운영할 계획이다.
추가되는 지표는 허깅페이스의 오픈 LLM 리더보드에서 사용되는 평가지표 중 추론능력(Winogrande, 글 속 대명사 추론 능력), 산술추론능력(GSM8K, 산술 연산 분야 추론능력) 두 개 지표로 해당 지표를 한국어에 맞게 적용한 것이다.
한국어 모델의 성능 평가 체계를 국제 평가 기준과 대등한 수준으로 끌어올리는 계기가 될 것이다.
추가 지표는 AI 언어 데이터 전문 기업인 플리토가 참여해 한국어에 맞게 번역 및 개발을 지원했다.
이번 추가 지표는 6월부터 적용된다. AI허브 홈페이지 리더보드 메뉴에서 확인할 수 있다.
황종성 NIA 원장은 “한국어 LLM 발전을 위해 리더보드 평가 지표 및 체계를 지속적인 개선할 방침”이라며 “이를 통해 국내외 AI 연구자들 사이에서 더욱 활발한 교류와 협력이 이루어질 것으로 기대하고 있다” 고 밝혔다.