디지털헬스

AI 설계, ‘진료 행태’ 반영이 핵심…결측 많아도 성능 흔들리지 않았다

기사입력 2025.07.02 11:32
  • 의료 인공지능(AI) 모델의 성능은 데이터의 양보다, 의료진이 어떤 판단에 따라 데이터를 수집했는지 등 ‘진료 맥락’을 반영하는 설계가 더 중요하다는 연구 결과가 나왔다.

    의료 인공지능(AI) 기업 에이아이트릭스(대표 김광준)는 최근 SCIE 급 국제 학술지 ‘임상의학저널(Journal of Clinical Medicine)’에 임상 데이터 결측과 AI 모델 성능 간의 상관성을 분석한 논문을 게재했다고 2일 밝혔다. 

    에이아이트릭스는 단순한 정보 누락으로 취급돼 온 결측(Missingness)이 사실은 의료진의 임상 판단이 반영된 결과일 수 있다는 점에 주목하고, 이를 AI 설계에 어떻게 반영할 수 있을지 분석했다. 연구는 예수병원 일반 내과·외과 병동의 입원 환자 2만 4,359명의 전자의무기록(EMR)을 후향적으로 분석해 ‘데이터를 수집한 임상적 맥락(Informative Presence)’의 개념을 실증했다.

    연구팀은 환자의 중증도를 ‘동반 질환 지수(CCI)’에 따라 고위험군(CCI > 3)과 중저위험군(CCI ≤ 3)으로 나눈 뒤, 각 집단의 결측률과 AI 예측 성능을 비교했다.

  • 환자 중증도에 따른 검사 항목별 결측률. 고위험군(상단)과 중저위험군(하단) 모두에서 임상 악화(Event)가 발생한 환자들은 전반적으로 결측률이 낮았다. 이는 의료진이 중증도와 무관하게 이상 징후를 인지할 경우 더 적극적으로 검사를 시행했음을 보여준다. /그래프 제공=에이아이트릭스
    ▲ 환자 중증도에 따른 검사 항목별 결측률. 고위험군(상단)과 중저위험군(하단) 모두에서 임상 악화(Event)가 발생한 환자들은 전반적으로 결측률이 낮았다. 이는 의료진이 중증도와 무관하게 이상 징후를 인지할 경우 더 적극적으로 검사를 시행했음을 보여준다. /그래프 제공=에이아이트릭스

    분석 결과, 중증도가 높을수록 검사 빈도는 증가하고 결측률은 낮았지만, 중증도와 상관없이 임상 악화가 실제로 발생한 환자들은 결측률이 일관되게 낮은 것으로 나타났다. 이는 의료진이 환자 상태에 이상 징후를 감지했을 경우, 위험군 여부와 관계없이 더 적극적으로 검사를 시행했음을 보여주는 대목이다.

  • 환자 중증도에 따라 그룹을 나눠 예측 정확도(AUROC)를 비교한 결과, 고위험군(파란색) 0.86, 중저위험군(주황색) 0.85로 큰 차이가 없었다. 데이터 양이나 결측률 차이보다, 의료진의 검사 시행 맥락을 반영한 AI 설계가 성능 유지에 더 중요하다는 것을 시사한다. /그래프 제공=에이아이트릭스
    ▲ 환자 중증도에 따라 그룹을 나눠 예측 정확도(AUROC)를 비교한 결과, 고위험군(파란색) 0.86, 중저위험군(주황색) 0.85로 큰 차이가 없었다. 데이터 양이나 결측률 차이보다, 의료진의 검사 시행 맥락을 반영한 AI 설계가 성능 유지에 더 중요하다는 것을 시사한다. /그래프 제공=에이아이트릭스

    흥미로운 점은 결측률 차이가 존재했음에도 불구하고, AI 모델의 예측 정확도(AUROC)가 전체 환자군에서 0.86, 고위험군 0.86, 중저위험군 0.85로 거의 유사하게 나타났다는 점이다. 단순한 데이터양보다, 그 안에 내포된 ‘의료진의 판단’이라는 맥락을 AI가 어떻게 인식하고 반영하느냐가 성능에 더 큰 영향을 미칠 수 있음을 보여주는 결과다.

    이번 논문은 지난 6월 같은 학술지에 게재된 에이아이트릭스의 전 연구와도 연결된다. 당시 연구에서는 바이탈케어 AI가 결측값을 단순히 대체하는 기존 방식(평균 대치법, MICE 등)보다 높은 예측 성능을 보이는 것으로 나타났다. 결측 자체를 정보로 간주한 설계 방식이 성능 차이를 만든 것이다.

    에이아이트릭스 김광준 대표는 “환자 상태에 따라 검사 빈도와 결측 패턴이 달라지는 만큼, AI도 이러한 진료 맥락을 학습해야 한다”며 “이번 연구는 의료진의 판단 흐름을 읽는 AI, 현장을 이해하는 AI에 대한 가능성을 열었다”고 말했다.

    AI 설계의 중심이 ‘많은 데이터를 학습하는 것’에서 ‘진료 현장의 맥락을 읽는 것’으로 옮겨가고 있다. 이번 연구는 그 전환을 뒷받침하는 대표 사례로 의미를 지닌다.

최신뉴스