포커스

김세엽 셀렉트스타 대표 “LLM, 국가·도메인·서비스별 맞춤 평가 구축해야”

기사입력 2024.06.18 18:13
AIIA·TTA 조찬 포럼서 LLM 맞춤 검증 강조
  • 김세엽 셀렉트스타 대표가 18일 한국인공지능산업협회(AIIA)와 지능정보기술포럼(TTA ICT 표준화포럼 사업)이 양재 엘타워에서 공동 주최한 조찬포럼에서 ‘LLM, 신뢰성, 어떻게 평가할 수 있을까’라는 주제로 발표하고 있다.
    ▲ 김세엽 셀렉트스타 대표가 18일 한국인공지능산업협회(AIIA)와 지능정보기술포럼(TTA ICT 표준화포럼 사업)이 양재 엘타워에서 공동 주최한 조찬포럼에서 ‘LLM, 신뢰성, 어떻게 평가할 수 있을까’라는 주제로 발표하고 있다.

    생성형 인공지능(AI) 활용도가 높아지고 있는 가운데 검증 테스트 세부화가 필요하다는 주장이 나왔다.

    김세엽 셀렉트스타 대표는 18일 한국인공지능산업협회(AIIA)와 지능정보기술포럼(TTA ICT 표준화포럼 사업)이 양재 엘타워에서 공동 주최한 조찬포럼에서 “기업이 만든 대형언어모델(LLM) 서비스가 문제가 없는지 평가하는데 어려움을 겪고 있다”며 “글로벌 공통 평가부터 국가·도메인·서비스별 맞춤 평가가 필요하다”고 말했다.

    그는 서비스별 맞춤 평가가 필요하지만 이러한 평가 모델을 만들기 어렵고 많은 리소스가 필요하다고 강조했다. “산업 전반에 걸친 서비스 맞춤 평가 체계를 갖추기 위해 영역별 공통 평가 등 기반을 갖추는 것이 중요하다”며 “신뢰할 수 있는 LLM 도입에서 서비스별 맞춤 평가를 도입해야 한다”고 강조했다.

    생성형 AI 서비스가 일상생활에서 사용되면서 신뢰성 문제가 떠올랐다. 생성형 AI 가운데 텍스트 기반 LLM은 대규모 데이터를 학습해 사용자가 원하는 답변을 생성하고 있다. 이러한 방식에서 잘못된 답변을 내놓거나 하는 할루시네이션(환각) 문제가 발생하기도 하고 도덕적 기준에서 벗어나는 답변을 할 수 있다. 성 편향적 생성도 문제가 된다.

    셀렉트스타는 지난해 한국지능정보사회진흥원(NIA) 인공지능 학습용 데이터 구축사업 과제를 통해 KAIST, 네이버, LG AI 연구소, SK텔레콤, KT 등과 신뢰성을 종합적으로 평가할 수 있는 데이터를 구축했다.

  • 김세엽 셀렉트스타 대표가 18일 한국인공지능산업협회(AIIA)와 지능정보기술포럼(TTA ICT 표준화포럼 사업)이 양재 엘타워에서 공동 주최한 조찬포럼에서 대형언어모델(LLM) 평가 방법에 대한 강연을 했다. /구아현 기자
    ▲ 김세엽 셀렉트스타 대표가 18일 한국인공지능산업협회(AIIA)와 지능정보기술포럼(TTA ICT 표준화포럼 사업)이 양재 엘타워에서 공동 주최한 조찬포럼에서 대형언어모델(LLM) 평가 방법에 대한 강연을 했다. /구아현 기자

    주요 평가 지표는 △무해성(Harmlessness) △사회적 가치 일치 (Social Value Alignment) △상업적 일치 (Commercial Alignment) △도움제공(Helpfulness) 등이다. 그는 “무해성은 편견, 혐오, 논란 등 윤리·불법적인 문제를 방지하는지를 평가하고, 할루시네이션 이슈가 없는지를 본다”며 “사회적 가치관과 얼마나 일치하는지, 사용자 의도에 맞게 응답과 도움을 줄 수 있는 지를 평가한다”고 설명했다.

    이러한 네 가지 지표를 기준으로 설문조사와 LLM 자동 응답 테스트를 비교해 일치도를 측정해 기준을 수립하고 평가한다. 예를 들어 특정 질문에 대한 LLM 응답이 얼마나 많은 사람들과 일치하는 지를 평가하는 식이다.

    설문조사와 자동응답 테스트와 같은 LLM 평가 방법은 사람의 관여도를 기준 두 가지로 나눌 수 있다. 생성된 결과를 사람이 직접 평가하는 휴먼 평가(Human Evaluation)와 사람 개입이 없는 자동 평가(Automatic Evaluation)이다.

    자동 평가는 객관식 질의를 통해 자동 정량 평가로 진행되는 다중선택 평가(Multiple Choice Evaluation)와 LLM을 통해 휴먼 평가를 자동화하는 LLM 기반 평가(LLM based Evaluation)로 구성된다. 김 대표는 “세계적인 추세가 이 세 가지 평가 방법을 적절히 조합해 사용하고 있다”며 “각 지표에 대해 사람들의 동의 정도를 측정해 평가하고 있다”고 밝혔다.

  • 셀렉트스타가 지난해 실시한 LLM 테스트의 GPT4와 PaLM3 유해성 평가 결과. /셀렉트스타
    ▲ 셀렉트스타가 지난해 실시한 LLM 테스트의 GPT4와 PaLM3 유해성 평가 결과. /셀렉트스타

    지난해 셀렉트스타는 이 LLM 평가 모델을 적용해 GPT4와 PaLM3를 평가했다. 그 결과 GPT4는 유해성 평가에서 좋은 점수를 받았다. 1점 만점에 무해성 0.81점으로 편견, 혐오, 불법성 등에 잘 대응하는 것으로 나왔다. 그는 “유해성에서 젠더 이슈 문제에 대해 GPT4가 잘 대응하는 것으로 분석됐다. 반면 정치적 성향 평가에서는 비교적 낮은 점수가 나왔다”고 설명했다. 한국인의 사회적 가치관을 묻는 평가에선 낮은 점수를 받았고, 특히 한국사에 대한 평가가 점수가 낮았다“고 말했다.

    하지만 LLM이 한국인의 사회적 가치관과 얼마나 일치하는지 묻는 평가에선 낮은 점수를 받았다. 해당 데이터셋에는 정치·경제·사회 영역에서 최근 1년간 화제가 된 사건에 대해 사람들이 동의하는 정도를 6200명 규모로 설문조사해 반영했다. 테스트 결과 매우 동의·매우 비동의 관련 점수는 GPT-4가 0.26점, 팜2가 0.33점에 그쳤고, 매우동의와 동의 관련 점수는 GPT4는 0.45점, 팜2는 0.53점에 머물렀다. 그는 ”한국에 대한 이해와 한국사에 대한 평가 점수가 낮았다“며 “특정 국가에 LLM을 서비스하기 위해서는 해당 국가 구성원들의 의견을 잘 반영하는 것이 필요하다”고 언급했다.

    한편, 셀렉트스타가 참여해 구축한 LLM 평가 데이터 모델은 올해 하반기 AI-Hub(허브)를 통해 공개될 예정이다.

  • 18일 한국인공지능산업협회(AIIA)와 지능정보기술포럼(TTA ICT 표준화포럼 사업)이 양재 엘타워에서 공동 주최한 조찬포럼에서 참여자들이 기념 사진을 찍고 있다. /구아현 기자
    ▲ 18일 한국인공지능산업협회(AIIA)와 지능정보기술포럼(TTA ICT 표준화포럼 사업)이 양재 엘타워에서 공동 주최한 조찬포럼에서 참여자들이 기념 사진을 찍고 있다. /구아현 기자

최신뉴스