대장내시경 AI 시스템, 검사 효과 높이려면 낮은 ‘위양성률’이 중요
대장내시경 검사 중 사용하는 인공지능(AI) 시스템의 효과를 극대화하기 위해서는 ‘민감도’(실제 질병을 가려내는 비율)를 높이는 것뿐만 아니라 ‘위양성률’을 낮추는 것이 중요하다는 연구 결과가 공개됐다.
서울대학교병원 강남센터는 당원 소화기내과 배정호 교수가 11월 16~18일 열린 소화기연관학회 국제소화기학술대회(KDDW 2023)에서 ‘대장내시경 인공지능 시스템의 위양성률에 따른 임상 효과의 차이(Effectiveness of Two Computer-Aided Detection Systems with Different False Positive Rates in Colonoscopy)’에 대한 연구로 최우수 초록 구연상을 수상했다고 21일 밝혔다.
해당 연구 결과에 따르면, 대장내시경 검사 중 인공지능(AI) 시스템의 잦은 오경고나 위양성의 발생이 AI 의료기기에 대한 검사자의 신뢰도를 저하해 오히려 선종과 같은 중대한 알림을 간과하게 되는 ‘양치기 소년 효과(Crying wolf effect)’를 일으킬 수 있는 것으로 나타났다.
서울대학교병원 강남센터 소화기내과 교수진은 다른 위양성률(False positive rate, 대변 및 주름 등 정상 상태를 용종으로 잘못 인식하는 비율) 성능을 가진 2가지 대장내시경 인공지능 시스템을 1년간 약 3,000건의 검진 대장내시경에서 사용했을 때 의사들의 종양성 용종 탐지율에 미치는 영향을 비교·분석했다.
임상연구에 활용된 대장내시경 인공지능 시스템은 서울대병원 강남센터와 아이넥스코퍼레이션에서 공동 개발한 모델로 두 시스템 모두 100%의 높은 민감도를 보였다. 하지만 검사 중 위양성의 개수가 낮은 모델만이(ENAD-CADe) 의사의 선종 발견율(control 44.1% vs AI 50.4%)과 검사당 선종발견 개수(control 0.73 vs AI 0.91)의 향상에 도움이 되었다.
연구팀은 향후 AI 시스템의 개발과 도입에서 병변에 대한 높은 민감도뿐만 아니라 낮은 위양성률을 함께 갖춘 시스템이 임상에서 활용되어야 대장암 예방을 위한 인공지능 대장내시경 검사의 효과를 극대화할 수 있다고 주장했다.
배정호 교수는 “최근 인공지능 대장내시경의 여러 상용화 제품이 진료 현장에서 도입되고 있는 단계이지만 인공지능 의료기기의 효과는 사용자의 지식수준 및 시스템의 미세한 성능 차이에 따라서 매우 상이한 결과를 보일 수 있다”며 “향후 의료진과 인공지능과의 복합적인 상호작용을 중점적으로 연구하여 이러한 인공지능 의료기기들이 환자에게 더 안전하고 효과적으로 적용될 수 있도록 연구를 지속해 나갈 계획”이라고 말했다.