디지털헬스

AI가 의사보다 정확할까? 의대생 주도 1,426건 임상 증례 검증 연구

기사입력 2026.02.10 11:40
  • 국내 의과대학 본과생들이 실제 임상 증례 분석에서 인공지능(AI) 모델의 임상 판단 정확도를 의료진 응답과 비교한 연구 결과를 발표했다.

    연세대학교 용인세브란스병원(병원장 김은경)  심장내과 배성아 교수, 정신건강의학과 박진영 교수와 연세의대 본과 4학년 정재원·김현재 학생 연구팀은 오픈AI의 멀티모달 AI 모델 GPT-4o와 추론 특화 모델 o1의 임상 판단 정답률을 의료진 응답과 비교·분석한 결과를 공개했다.

    연구팀은 2011년부터 2024년까지 의료 교육 플랫폼 메드스케이프(Medscape)에 공개된 1,426건의 임상 증례를 분석했다. 해당 증례에는 환자 병력과 신체검사 소견, 혈액 검사 결과와 함께 X-ray, CT, MRI, 초음파, 심전도, 병리 슬라이드 등 총 917건의 의료 영상이 포함됐다.

  • 1,426건의 임상 증례와 의료 영상 포함 증례를 대상으로 의료진 판단과 AI 모델(GPT-4o, o1)의 임상 판단 정확도를 비교한 결과. 추론 AI 모델(o1)은 전반적으로 높은 정답률을 보였다. /이미지=용인세브란스병원
    ▲ 1,426건의 임상 증례와 의료 영상 포함 증례를 대상으로 의료진 판단과 AI 모델(GPT-4o, o1)의 임상 판단 정확도를 비교한 결과. 추론 AI 모델(o1)은 전반적으로 높은 정답률을 보였다. /이미지=용인세브란스병원

    분석 결과, 다수의 의료진이 선택한 답안의 정확도는 85.0%였으며, GPT-4o는 88.4%, o1은 94.3%의 정확도를 기록했다. 이번 연구에서의 ‘정확도’는 각 증례에 대해 사전에 설정된 정답 기준과의 일치 여부를 기준으로 평가됐다.

    연구팀은 의료 영상이 포함된 증례만을 별도로 분석한 경우에도 두 AI 모델은 의료진 응답보다 높은 정답률을 보였다고 설명했다. 또한 같은 증례를 5회 반복 분석한 결과, GPT-4o는 86.2%, o1은 90.7%의 증례에서 매번 동일하게 정답을 제시했다. 연구팀은 이를 통해 AI 모델의 판단 일관성도 함께 확인했다고 밝혔다.

    이번 연구는 교수진 지도 아래 의대 본과생들이 연구 설계부터 데이터 분석, 논문 작성까지 전 과정을 주도했다는 점에서 의학교육과 AI 연구 측면에서도 의미가 있다고 연구진은 설명했다.

    배성아·박진영 교수는 이번 연구가 AI 모델이 텍스트 정보와 의료 영상을 함께 활용해 임상 증례에 관한 판단을 수행할 수 있음을 보여준 사례라고 설명했다.

    이번 연구 결과는 국제학술지 Medicine 2026년 1월호에 게재됐으며, 보건복지부와 한국보건산업진흥원이 지원하는 ‘가상환자·가상병원 기반 의료기술 개발 사업’의 지원을 받아 수행됐다. 연구 데이터와 분석 코드는 깃허브(GitHub)를 통해 공개됐다.

최신뉴스