디지털헬스

전문의도 엇갈리는데…무릎관절염 경계 구간서 일관된 AI 성능 확인

기사입력 2026.06.08 13:28
KL 2등급서 AUC 0.87 기록…국내 다기관 외부 검증 연구
의료진 보조 효과·경제성 평가 결과도 잇따라 보고
  • 무릎 골관절염 진단에서 가장 까다로운 구간으로 꼽히는 KL 2등급(Kellgren-Lawrence grade)에서 인공지능(AI) 진단 보조 소프트웨어의 성능을 검증한 연구가 국제 학술지에 게재됐다. KL 2등급은 관절 손상이 본격적으로 나타나기 시작하는 단계로, 전문의 사이에서도 판독이 엇갈릴 때가 많다.

    의료 AI 기업 코넥티브(대표 노두현)는 자사의 무릎 X-ray 진단 보조 AI 소프트웨어 ‘코네보 코아(CONNEVO KOA)’의 성능 검증 연구가 관절 치환술 분야 국제 학술지 ‘저널 오브 아트로플라스티(The Journal of Arthroplasty)’에 게재됐다고 8일 밝혔다. 국내 상급종합병원 2곳에서 수집한 환자 1,273명, 무릎 X-ray 영상 2,546건을 대상으로 진행된 다기관 외부 검증 연구다.

  • 코네보 코아의 무릎 골관절염 진단 성능을 검증한 연구가 국제 학술지 '저널 오브 아트로플라스티'에 게재됐다. /코넥티브 제공
    코네보 코아의 무릎 골관절염 진단 성능을 검증한 연구가 국제 학술지 '저널 오브 아트로플라스티'에 게재됐다. /코넥티브 제공

    전문의도 의견이 갈리는 KL 2등급

    국제 표준인 KL 등급은 골극(뼈 돌기) 형성, 관절 간격 감소 등 X-ray 소견을 토대로 골관절염 진행 정도를 0~4단계로 구분한다. 이 가운데 KL 2등급은 관절 손상이 확인되기 시작하는 단계지만, 소견이 뚜렷하지 않아 판독자 간 해석 차이가 발생하기 쉽다. 비수술적 치료 개입 여부를 결정하는 임상적 분기점이기도 하다.

    이번 연구에서도 이러한 어려움이 확인됐다. 연구진은 정답지 구축을 위해 정형외과 전문의 2명이 동일한 영상을 독립적으로 판독한 뒤, 의견이 엇갈리면 근골격계 영상의학 전문의가 최종 판정을 내리는 방식을 적용했다.

    그 결과 대부분 등급에서는 판독 일치도가 ‘상당(substantial)’ 이상으로 나타났지만, KL 2등급만 일치도(카파)가 0.534로 ‘보통(moderate)’ 수준에 그쳤다. 이는 전문의들 사이에서도 가장 의견이 갈리는 구간임을 뜻한다.

    미국 데이터로 학습, 한국 병원에서 다시 검증

    코네보 코아는 미국 국립보건원(NIH) 지원으로 구축된 골관절염 이니셔티브(OAI)와 다기관 골관절염 연구(MOST)의 무릎 X-ray 약 4만 장을 활용해 학습했다.

  • 코넥티브의 무릎 골관절염 AI 진단 보조 소프트웨어 '코네보 코아' 실행 화면. 양측 무릎 X-ray 영상에서 KL 등급과 예측 점수를 자동 표시한다. /코넥티브 제공
    코넥티브의 무릎 골관절염 AI 진단 보조 소프트웨어 '코네보 코아' 실행 화면. 양측 무릎 X-ray 영상에서 KL 등급과 예측 점수를 자동 표시한다. /코넥티브 제공

    연구진은 학습에 사용되지 않은 한국 병원 데이터를 활용해 AI 성능을 검증했다. 기존 국내 허가 기기(MediAI-OA) 대비 비열등성을 확인하도록 설계된 후향적 단일군 연구다.

    연구 결과 골관절염 여부(KL 2등급 이상)를 판별하는 이진 분류에서 코네보 코아는 정확도 94.2%, AUC 0.94를 기록했다. AUC는 분류 성능을 평가하는 지표로 1에 가까울수록 우수한 성능을 의미한다.

    특히 주목할 부분은 KL 2등급에서의 성능이다. 전문의 간 판독 일치도가 0.534에 그쳤던 구간에서 코네보 코아는 AUC 0.87을 기록했다. 판독이 어려운 구간에서도 비교적 안정적인 분류 성능을 보인 것이다.

    다만 이번 연구는 AI 단독 성능을 평가한 것으로, 실제 진료 과정에서 의료진을 보조했을 때의 효과까지 검증한 것은 아니다.

    AI 도움받은 저연차 의사, 판독 성능 향상

    의료진이 AI를 사용할 때 판독 성능이 어떻게 달라지는지를 평가한 연구도 별도로 진행됐다.

    지난 5월 대한슬관절학회 국제학술대회(ICKKS)에서 발표된 다기관 연구에서는 3개 기관 판독의 7명이 무릎 X-ray 1,000장(2,000개 무릎)을 AI 없이 먼저 판독한 뒤, 4주 후 AI 도움을 받아 다시 판독했다.

    AI 보조 시 민감도는 67.6%에서 75.3%로, 특이도는 89.7%에서 92.0%로 상승했다. 정확도 역시 84.2%에서 87.8%로 높아졌다. 판독자 간 일치도를 나타내는 가중 카파는 0.811에서 0.878로 개선됐다.

    특히 경력이 짧은 판독의에게서 향상 폭이 더 크게 나타났다. 판독이 까다로운 KL 3등급에서는 민감도가 49.7%에서 68.1%로 상승했다.

    다만 해당 연구는 국제 학술지 게재 논문이 아닌 학회 발표 단계의 연구라는 점은 고려할 필요가 있다.

    경제성 평가 연구도 발표

    정형외과 분야 국제 학술지 ‘JBJS(The Journal of Bone and Joint Surgery)’에는 AI 보조 진단의 경제성을 평가한 연구도 게재됐다.

    연구진은 환자의 생애 전반에 걸친 치료 경과를 시뮬레이션하는 모델을 활용해 비용과 효과를 분석했다. 그 결과 AI 활용 시 환자 1인당 약 3,125달러의 비용을 절감하고, 질보정수명(QALY)은 0.260년 증가하는 것으로 추정됐다.

    다만 이 결과는 모델 기반 경제성 평가 연구라는 점에서 해석에 주의가 필요하다. 공동 저자 중 한 명은 코네보 코아를 개발한 코넥티브의 대표이사로, 평가 대상 AI를 개발한 기업 관계자가 연구에 참여했다.

    또 확률적 민감도 분석에서 지불용의 기준(1인당 국내총생산 수준)을 적용했을 때 비용 효과적일 확률은 약 55%로 나타났다. 연구진 역시 일상 진료 과정에 AI를 통합하기 위해서는 신중한 접근과 실제 임상 환경에서의 추가 검증이 필요하다고 밝혔다.

    해외 인허가·실증 단계로

    코네보 코아는 해외 인허가도 진행 중이다. 유럽에서는 의료기기 인증기관 BSI로부터 의료기기 규정(MDR) 기준 Class IIa 인증을 획득했으며, 아랍에미리트(UAE)에서는 아부다비 보건청(DoH)의 보건기술 등록부에 등재됐다.

    코넥티브는 최근 삼성서울병원, 중앙대학교병원, 양산부산대학교병원과 컨소시엄을 구성해 한국보건의료정보원이 주관하는 ‘2026년 의료 AI 테스트베드 지원사업’에 선정됐다.

    지금까지의 연구가 과거 데이터를 활용한 후향적 검증이었다면, 앞으로는 실제 환자 진료 과정에서 AI 활용 효과를 평가하는 단계로 넘어가게 된다. 실제 진료 현장에서 AI가 전문의 간 판독 편차를 줄이고 의사결정을 얼마나 지원할 수 있을지는 향후 테스트베드 사업을 통해 추가 검증될 예정이다.

최신뉴스