세계 첫 피부암 AI 벤치마크 공개… 피부암 진단의 정확도 향상 기대
NEJM AI, 피부암 진단용 인공지능 성능 비교 위한 ‘MIDAS’ 데이터셋 공개
피부암을 진단하는 인공지능(AI) 모델의 성능을 객관적으로 비교할 수 있는 세계 최초의 공개 벤치마크 데이터셋이 발표됐다. 이번 연구 결과는 세계적 의학 학술지 NEJM AI에 5월 21일 자로 게재됐으며, 국내 연구진도 공동저자로 참여했다.
‘벤치마크 데이터셋’이란 다양한 인공지능 모델이 동일한 조건에서 성능을 평가받을 수 있도록 구성된 표준 시험용 데이터를 뜻한다. AI 개발자가 각자 다른 방식으로 성능을 주장하는 대신, 제삼자가 공정하게 비교할 수 있는 ‘공식 시험장’ 역할을 한다.
‘MIDAS(Multimodal Image Dataset for AI-based Skin cancer benchmarking)’는 피부암 진단 AI의 실제 임상 적용 가능성과 신뢰도를 평가하기 위해 구축됐다. 연구에는 스탠퍼드대학 의과대학, 클리블랜드 클리닉, 메모리얼 슬론 케터링 암센터(MSKCC), 비엔나의대 등 세계 유수 의료기관이 참여했으며, 한국에서는 아이피부과 한승석 원장이 공동저자로 이름을 올렸다
MIDAS에는 총 796명의 환자, 1,290개의 병변, 3,800여 장의 임상 및 확대경 이미지가 포함돼 있으며, 피부과 전문의의 진단과 병리 확진 결과도 함께 제공된다. 이를 통해 AI 모델이 실제 임상 환경에서 얼마나 정확하게 작동하는지를 평가할 수 있도록 설계됐다.
연구팀은 현재 사용 중인 주요 피부암 AI 모델 4종을 같은 조건에서 테스트했으며, 국내에서 개발된 AI 모델 ‘ModelDerm’도 그중 하나로 포함됐다. 이 모델은 임상 사진 기반으로 피부병변의 악성 여부를 분류하며, CE 인증과 국내 식약처 허가를 받은 제품이다.
테스트 결과, 기존 연구 환경에서 뛰어난 성능을 보였던 AI 모델들도 MIDAS 환경에서는 성능이 다소 하락했다. 연구진은 “AI 모델의 실제 활용 가능성을 평가하려면 다양한 환경에서의 일반화 성능을 검증할 수 있는 공개 벤치마크가 필수적”이라고 강조했다.
또한 이번 연구에서는 단일 모델보다 여러 AI 모델을 결합하는 앙상블 방식과, 임상 사진과 확대경 이미지를 함께 활용하는 멀티모달 접근법이 진단 정확도를 높일 수 있다는 가능성도 제시됐다.
MIDAS 데이터셋은 공개형으로 운영되며, 연구자와 기업이 자유롭게 접근해 활용할 수 있도록 설계돼 있다. 연구진은 이 데이터셋이 향후 AI 의료기술의 신뢰성과 투명성을 확보하기 위한 국제 표준 벤치마크로 발전할 수 있을 것이라고 전망했다.