-
삐뚤빼뚤한 수학 답안을 사람처럼 꼼꼼하게 채점하고 첨삭까지 해주는 인공지능(AI) 선생님이 나왔다.
김태환 UNIST 인공지능대학원교수와 고성안 POSTECH(포스텍) 교수팀이 손글씨로 쓴 복잡한 수학 답안을 채점하는 AI 모델인 ‘베미(VEHME, Vision-Language Model for Evaluating Handwritten Mathematics Expressions)’를 개발했다고 17일 밝혔다.
주관식 수학 문제 채점은 교육 현장에서 가장 시간이 많이 소요되는 업무지만 이를 자동화하기에는 한계가 있었다. 수학 풀이 특성상 수식, 그래프, 도형이 섞여 있고 학생마다 필체와 답안 배치가 제각각이라, AI가 이를 정확히 인식해 오류를 찾아내는 것이 어렵기 때문이다.
연구진이 개발한 베미는 마치 사람이 문제 풀이의 흐름을 따라가는 것처럼 수식의 위치와 문맥을 정확히 읽고, 틀린 풀이를 짚어낼 수 있다.
실제 베미로 미적분부터 초등학교 산수 수준의 다양한 수학 문제 풀이를 채점해본 결과, 경량 모델임에도 불구하고 거대 모델인 ‘GPT-4o’, 제미나이 2.0 Flash와 대등한 채점 정확도를 보였다. 답안이 심하게 회전돼 있거나 글씨가 엉망인 고난도 평가에서는 베미가 오히려 상용 모델들을 제치고 더 정확하게 오류 위치를 찾아냈다고 연구팀은 설명했다. 70억 개의 매개변수를 사용하는 베미와 달리 GPT나 제미나이와 같은 모델들은 수천억 개 이상의 매개변수를 가진 것으로 알려져 있다.
연구팀은 수식 인식 시각 프롬프트(EVPM)라는 자체 개발 기술과 ‘이중 학습 기법’을 이용해 베미를 만들었다. EVPM은 베미가 복잡하게 나열된 수식들에 가상의 박스를 쳐서 풀이 순서를 놓치지 않게 만들어준다. 2단계 강화학습은 단순히 정답을 맞혔는지 뿐만 아니라, 풀이 과정 중 어느 부분이 왜 틀렸는지까지 설명할 수 있다.
또 AI가 학습할 수 있는 정교한 손글씨와 첨삭 데이터가 많지 않았기 때문에 대형언어모델(QwQ-32B)로 합성 데이터를 만들어 활용했다.
한편, 베미는 오픈 소스 모델로 만들어져 학교나 학원 같은 교육 기관에서 무료로 쓸 수 있다.
김태환 UNIST 교수는 “베미는 복잡한 풀이 구조를 사람처럼 단계별로 따라가며 판단하는 모델로, 실제 교육 현장에서 활용할 수 있을 정도의 안정성과 효율성을 확보한 것에 큰 의미가 있다”며 “자체 개발한 EVPM 모듈은 복잡하게 배열된 시각 정보를 자동으로 구조화할 수 있게 해, 교육 분야뿐 아니라 문서 인식, 설계 도면 분석, 수기 기록물 디지털화 등 다양한 산업 분야의 멀티모달 추론 모델에도 쓸 수 있을 것”이라고 전했다.
연구 결과는 자연어처리(NLP) 분야 대표 국제학회인 EMNLP(Empirical Methods in Natural Language Processing)의 정식 논문으로 채택됐다. 올해 EMNLP는 11월 5일부터 9일까지 중국 쑤저우에서 열렸다.
- 구아현 기자 ainews@chosun.com