테크

KAIST, 적은 데이터로 사람 선호 정확히 파악하는 AI 개발

기사입력 2025.12.17 16:32
  • (왼쪽부터) 김준모 KAIST 교수, 권민찬 KAIST 박사과정. /KAIST
    ▲ (왼쪽부터) 김준모 KAIST 교수, 권민찬 KAIST 박사과정. /KAIST

    KAIST 연구진이 인공지능(AI)이 적은 데이터로도 사람의 선호를 정확하게 배울 수 있는 새로운 학습 기술을 개발했다.

    KAIST는 김준모 전기및전자공학부 교수 연구팀이 데이터 효율성과 학습 안정성을 크게 향상시킨 강화학습 기술 'TVKD'를 개발했다고 17일 밝혔다.

    그동안 AI는 ‘A가 B보다 낫다’는 식의 비교 데이터를 대량으로 수집해 사람의 선호를 학습해왔다. 하지만 이 방식은 많은 데이터가 필요하고, 판단이 애매한 상황에서 AI가 혼란에 빠지기 쉽다는 단점이 있었다.

    연구팀은 이 문제를 해결하기 위해 ‘교사-학생’ 방식을 도입했다. 사람의 선호를 먼저 깊이 이해한 ‘교사 모델’이 핵심 정보만 ‘학생 모델’에 전달하는 구조다. 마치 복잡한 내용을 정리해 가르치는 가정교사와 같다고 연구팀은 설명했다.

    이 기술의 핵심은 단순히 ‘좋다·나쁘다’를 따라 하는 게 아니라, 각 상황이 얼마나 가치 있는지를 수치로 판단하는 가치 함수를 활용한다는 점이다. 이를 통해 AI는 애매한 상황에서도 이 선택이 왜 더 나은지를 종합적으로 판단해 학습할 수 있다.

    또 선호 데이터의 신뢰도에 따라 학습 중요도를 조절하는 기법도 적용했다. 명확한 데이터는 크게 반영하고 모호하거나 잡음이 섞인 데이터는 영향력을 줄여 현실 환경에서도 AI가 안정적으로 학습하도록 했다.

    실험 결과 이 기술은 기존 최고 성능 방법들보다 더 정확하고 안정적인 성능을 보였다. 티-벤치(MT-Bench), 알파카-이밸(AlpacaEval) 등 주요 평가 지표에서 기존 기술을 안정적으로 앞서는 성과를 기록했다고 연구팀은 설명했다.

    김준모 KAIST 교수는 “현실에서는 사람의 선호 데이터가 항상 충분하거나 완벽하지 않다”며 “이번 기술은 그런 제약 속에서도 AI가 일관되게 학습할 수 있게 해 다양한 분야에서 실용성이 매우 높을 것”이라고 전했다.

    이번 연구는 권민찬 KAIST 전기및전자공학부 박사과정이 제1저자로 참여했다. 국제 AI 분야 최고 권위 학회인 ‘신경정보처리시스템학회(NeurIPS) 2025’에 채택돼 지난 3일 발표됐다.

최신뉴스