수능 본 챗GPT, 영어 2등급 수학은 낙제
요약과 추론은 우수, 두 자릿수 곱셈은 이해 못 해
오픈AI가 개발한 대화형 인공지능(AI) 챗GPT 수능 성적이 나왔다.
기술검증 기관 애나는 김시호 연세대 인공지능대학 교수팀과 챗GPT에 2023학년도 수능 영어와 수학 과목을 풀어보게 한 결과 각각 2등급, 낙제 수준의 성적을 보였다고 6일 밝혔다.
이번 실험은 수능 문제에서 그림이 포함돼 문항 입력이 불가능한 경우를 제외하고 문제 전체를 입력하고 답을 확인하는 방식으로 진행됐다.
영어 수능 시험에서 듣기 평가의 경우 16문제 중 14문제, 독해 평가는 17문제 중 13문제에 정답을 맞춰 총 82점을 취득했다. 수능 2등급 수준 성적이다. 문단에 함축된 의미 추론, 요지 파악, 글의 목적과 주제 파악 등 난이도가 높은 문제에서 모두 정답을 맞췄다.
반면 수학 시험에서는 상반된 결과가 나왔다. 공통 과목 분야에서는 20문제 중 6문제에 정답을 맞췄으나 확률과 통계·미적분학·기하 분야 문제는 전부 오답을 출력해 챗GPT의 수학 능력은 현저히 낮은 것으로 나타났다. 기계학습 방법으로 수학을 배우는 챗GPT의 연산 능력은 한 자리 숫자의 곱셈 정도는 풀지만 두 자리 숫자의 곱셈에서 오답을 낼 정도로 정확도가 떨어진다.
이상호 애나 최고기술책임자(CTO)는 “챗GPT는 문장에 대한 요약, 추론 등에 대해서는 매우 뛰어난 능력을 보이고 있으며 이러한 요약, 추론 기능을 활용하여 응용할 수 있는 서비스가 무궁무진할 것으로 보인다”며 “산업계에서는 이에 맞추어 인재 채용에 대한 요구사항이 머지않아 바뀌게 될 것이다”고 말했다.
한경희 연세대 공학교육혁신센터 교수는 “멀지 않은 미래에 AI의 능력이 대학 신입생의 학습 능력 수준을 넘어서게 될 것”이라며 “AI와 동행하게 될 앞으로의 교육에서 새로운 교육 목적과 방법을 고민하지 않는다면 미래사회에서 대학 교육은 존립의 근거를 잃게 될지도 모른다”고 지적했다.
챗GPT는 1750억 개 이상 파라미터(매개변수)를 보유한 거대 언어모델 ‘GPT-3.5’를 기반으로 제작된 대화형 AI 서비스다. 보상과 처벌을 통해 AI가 올바른 결괏값을 내게 하는 강화학습을 적용, AI가 사람과 더 수준 높은 대화를 할 수 있게 만들어졌다. 이 서비스는 마치 실제 사람과 대화하는 것과 같은 서비스를 제공해 출시 1주 만에 100만 명 이상의 사용자를 확보했다.