‘정답’보다 ‘과정’…서울대병원, 판단 구조 반영한 의료 AI 2종 공개
영상 판독·임상 추론 분리해 의료진 사고 과정 보조
서울대병원(병원장 김영태)이 의료 영상 판독과 임상 추론 역할을 분리해 수행하도록 설계한 의료 특화 인공지능(AI) 모델 2종을 개발해 오픈소스로 공개했다.
서울대병원은 원내 헬스케어AI연구원이 개발한 흉부 X-ray 영상 판독 AI ‘mvl-rrg-1.0’과 의료 추론에 특화된 거대언어모델 ‘hari-q2.5-thinking’을 공개했다고 9일 밝혔다. 이번에 공개된 두 모델은 각각 영상 판독과 텍스트 기반 임상 추론을 담당하도록 설계된 연구용 모델이다.
영상 판독 모델 ‘mvl-rrg-1.0’은 흉부 X-ray 영상을 분석해 판독문을 자동으로 생성하는 AI다. 단일 영상 분석에 그치지 않고 과거 영상과 현재 영상을 비교해 질병의 진행이나 호전 등 시간에 따른 변화를 반영하도록 설계됐다. 약 36만 건 이상의 공개 의료 영상 데이터를 활용해 학습됐으며, 현재 영상만을 입력하는 조건에서도 자연어 생성 성능 지표인 ROUGE-L 34.1, BLEU-4 18.6을 기록했다. 다만 해당 지표는 판독문의 언어적 완성도를 평가하는 연구 지표로, 임상적 정확성이나 진단 신뢰도를 직접적으로 의미하는 것은 아니다.
이 모델은 진료실이나 응급실 환경에서 의료진의 판독 부담을 줄이는 보조 도구로 활용 가능성이 제시됐다. 과거 영상과의 비교 결과를 정리해 환자에게 경과를 설명하는 데 도움을 주거나, 응급 상황에서 의료진의 초기 판단을 보조하는 역할을 염두에 두고 있다. 촬영 조건이나 장비 차이 등 실제 임상 환경에서 발생할 수 있는 변수에 대한 검증은 향후 과제로 남아 있다.
텍스트 기반 의료 AI ‘hari-q2.5-thinking’은 임상 상황을 이해하고 진단·치료 과정에 필요한 추론을 수행하도록 설계됐다. 한국 의사국가고시(KMLE) 모의 테스트에서 정답률 89%를 기록해 의학 지식과 사고 능력을 검증했지만, 이는 시험 환경에서의 성능으로 실제 임상 현장의 불확실성을 그대로 반영하는 지표는 아니다. 서울대병원은 이 모델이 복합 증상이 나타나는 환자 진료에서 과거 병력과 임상 기록을 종합해 감별 진단의 근거와 추가 검사 필요성을 단계적으로 정리하는 데 초점을 맞췄다고 설명했다.
이번 연구는 과학기술정보통신부의 ‘AI 연구용 컴퓨팅 지원 프로젝트’를 통해 진행됐다. 서울대병원은 H200 GPU 64장을 지원받아 대규모 의료 데이터를 기반으로 텍스트와 의료 영상을 결합한 초거대 의료 AI 모델의 학습·검증 환경을 구축했다.
서울대병원은 향후 여러 AI가 역할을 나눠 판단을 보조하는 멀티에이전트 시스템으로의 확장을 추진하고, 내과·외과·소아청소년과 등 17개 진료과별 특화 모델 개발도 계획하고 있다. 다만 실제 임상 적용을 위해서는 추가적인 검증과 책임 구조, 현장 적합성에 대한 논의가 필요하다는 점도 함께 언급했다.
이형철 헬스케어AI연구부원장은 “이번에 공개한 모델들이 의료진의 진료 판단을 더욱 효율적으로 보조하는 데 활용될 수 있을 것”이라고 말했다.
한편, 서울대병원은 이번 의료 AI 모델을 Korea Health Data Platform와 글로벌 AI 플랫폼 Hugging Face에 공개했다.