AI 의료 정보 어디까지 믿을 수 있을까…모델별 답변 달랐다

김정아 기자
2026.03.16 11:04

AI 의료 정보 어디까지 믿을 수 있을까? 무릎 인공관절 수술 관련 질문을 인공지능(AI) 챗봇에 던졌더니 모델에 따라 답변 품질에 차이가 나타났다는 연구 결과가 나왔다.

이효범 교수(강동경희대학교병원 정형외과)와 송시영 교수(한림대학교 동탄성심병원 정형외과) 등이 참여한 공동 연구팀은 무릎 인공관절 수술 관련 질문에 대해 AI 챗봇의 답변 정확도와 관련성을 비교·분석한 연구 결과를 발표했다. 해당 연구는 정형외과·스포츠의학 분야 SCIE 국제학술지 ‘Orthopaedic Journal of Sports Medicine’ 2026년 1월호에 게재됐다.

AI 기반 의료정보 활용이 환자 교육 도구로 활용될 가능성이 제기되고 있다. /이미지=AI 생성

연구팀은 구글 검색 경향과 정형외과 전문의 자문을 바탕으로 무릎 인공관절 수술 전후 환자들이 자주 하는 질문 43개를 선정했다. 질문은 ▲수술 개요 및 과정 ▲수술 적응증과 결과 ▲부작용·합병증 ▲통증과 회복 과정 ▲수술 후 허용되는 활동 ▲수술 대안 및 변형 술기 등 6개 영역으로 구성됐다.

연구팀은 GPT-3.5, GPT-4, GPT-4 Omni, Gemini Advanced, Gemini 1.5 등 5개 대형언어모델(LLM) 기반 AI 챗봇에 동일한 질문을 제시한 뒤 답변을 비교했다. 이후 무릎 인공관절 수술을 전문으로 하는 정형외과 전문의 두 명이 각 답변의 정확도와 질문 관련성을 5점 리커트 척도로 평가했다. 평가자는 어떤 AI 챗봇이 작성한 답변인지 알 수 없는 블라인드 방식으로 채점했다.

분석 결과 GPT-3.5, GPT-4, GPT-4 Omni, Gemini 1.5는 평균 정확도 4.8점 이상을 기록했다. 특히 GPT-4와 GPT-4 Omni는 평균 4.9점으로 가장 높은 점수를 보였지만, Gemini Advanced는 평균 정확도 4.07점으로 다른 모델보다 낮은 평가를 받았다.

질문과의 관련성에서도 차이가 나타났다. GPT 계열 모델과 Gemini 1.5는 모든 질문에서 관련성이 인정돼 100%의 평가를 받았지만, Gemini Advanced는 43개 질문 가운데 36개에서 관련성이 인정돼 83.7%로 집계됐다.

특히 수술 적응증과 수술 결과, 인공관절 수술의 대안 및 변형 술기와 관련된 질문에서 모델 간 차이가 통계적으로 유의하게 나타났다. 이러한 영역은 치료 선택이나 임상 판단과 직접적으로 연결되는 만큼, AI 챗봇이 제공하는 의료 정보의 활용 범위와 한계를 보여주는 결과로 볼 수 있다.

또한 Gemini Advanced의 경우 일부 질문에서 자세한 설명 대신 ‘전문의와 상담할 것’을 권고하는 답변을 제시하는 경향이 관찰됐다. 논문은 이러한 답변 경향이 잘못된 의료 정보를 피하기 위한 안전 설계와 관련될 가능성이 있다고 분석했다.

송시영 교수는 “이번 연구에서 일부 AI 챗봇이 무릎 인공관절 수술과 관련된 의료 정보를 비교적 정확하게 설명할 수 있다는 점을 확인했다”며 “AI 챗봇은 환자가 수술과 치료 과정을 이해하는 데 도움을 주는 보조 도구로 활용될 가능성이 있다”고 말했다. 이어 “다만 최종적인 치료 결정이나 수술 여부는 반드시 의료진과 직접 상담을 통해 판단해야 한다”고 덧붙였다.

다만 이번 연구는 무릎 인공관절 수술 관련 질문 43개를 대상으로 진행된 비교·분석으로, 다양한 질환이나 복잡한 임상 상황을 포함한 의료 상담 전반의 정확도를 평가한 것은 아니다. 또한 평가가 정형외과 전문의 두 명의 판단을 기반으로 진행됐다는 점에서 AI 답변의 의학적 정확성을 직접 검증한 연구라고 보기는 어렵다는 한계가 있다.

논문은 AI 모델의 응답이 2024년 기준으로 평가됐다는 점에서 이후 모델 업데이트에 따라 결과가 달라질 수 있다고 밝혔다. 이번 연구는 과학기술정보통신부 재원으로 한국연구재단 우수신진연구 사업의 지원을 받아 수행됐다.

페이스북 플러스친구 네이버포스트