의료 AI, 1순위 과제는 ‘데이터’였다
[AWC 2023 in Seoul 리뷰] 의료 데이터 활용, 전 세계 AI 기업들의 공통 문제
카카오헬스케어·LG AI연구원, 의료 데이터 효율적으로 사용할 수 있는 방안 소개
의료 인공지능(AI) 발전을 위한 최대 과제는 ‘데이터’였다.
지난 12일 서울 대한상공회의소 국제회의장에서 의료 AI를 주제로 열린 글로벌 AI 컨퍼런스 ‘AWC 2023 in Seoul(AWC 서울)’에서는 의료 AI 발전을 위한 각 기업의 연구 사례 등이 발표됐다. 이 자리에서 주로 발표된 연구 내용은 ‘데이터 활용’이었다.
의료 데이터는 개인의 민감한 정보가 담겨 있어 AI 기업이나 병원이 모델 개발 및 고도화 용도로 활용하기 어렵고, 수집 자체도 쉽지 않아서다. AWC 서울에 발표자와 토론자로 참석한 캐나다 의료 AI 보험 기술 스타트업 ‘리디아 AI(Lydia AI)’의 앤서니 리 대표는 한국뿐 아니라 캐나다에서도 민간 기업의 AI 활용은 쉽지 않다고 지적했다. 그는 “캐나다에선 대학이 아닌 일반 기업에선 의료 데이터 활용이 어렵다”며 “산학 협력을 하지 않는 이상 데이터 이용은 쉽지 않다”고 말했다. 이어 “AI 4대 천왕이라 불리는 제프리 힌튼이 있는 토론토대 역시 올해 초 환자 동의를 얻지 않고 데이터를 활용해 문제가 됐었다”면서 “60만 환자의 데이터를 어디서 확보했는지에 대한 답을 하지 못해 캐나다 차원에서 큰 문제가 된 바 있다”고 밝혔다.
카카오헬스케어와 LG AI연구원 등 국내 기업들은 이처럼 민감 데이터로 평가받는 의료 데이터를 안전하게 사용할 수 있는 방법을 소개했다. 이날 기조연설자로 나온 황희 카카오헬스케어 대표는 ‘연합학습’을 활용해 환자의 개인 데이터를 안전하게 보호하면서 AI 학습과 추론을 할 수 있는 방법을 발표했다. 연합학습은 모든 데이터를 서버로 모아 AI를 학습시키는 기존 방법과 달리, 사용자 기기에서 데이터를 처리해 모델을 강화하고 이 모델을 한곳에 모아 더 정교하게 만든 후 재배포하는 학습 방법이다. 각 기기에서 AI 학습을 하기 때문에 개인 데이터를 이동시키거나 노출할 필요가 없다. 2021년 구글이 발표했다.
황 대표는 “카카오헬스케어나 서울대가 알고리즘을 만들어 각 병원에 보낸 후 여기서 학습된 결괏값만 받으면 원천적으로 외부에서 데이터를 쌓거나 오픈할 이슈가 발생하지 않는다”면서 “의료 데이터를 연합학습으로 활용하기 위해 지난해부터 구글과 6개월 정도 논의했다”고 밝혔다. 이어 “현재 국내 대형병원을 대상으로 파일럿 프로젝트에 착수했으며, 대규모 병원 데이터를 처리하는 시스템을 시장에 선보일 계획”이라고 말했다.
LG AI연구원은 초거대 멀티모달 AI를 활용해 의료 데이터를 적게 사용해도 높은 성능의 결괏값을 낼 수 있는 방법을 찾았다고 밝혔다. 초거대 멀티모달 AI가 1억 개가 넘는 텍스트와 이미지를 학습한 만큼, 여기에 의료 데이터를 적게 입력해도 높은 성과를 낸다는 것을 한양대병원 연구팀과 입증했다고 설명했다. 이 상무는 “의료 영상 데이터가 몇만 장이 필요한 AI 모델과 비교했을 때 이중 10% 데이터만 활용해도 높은 결과가 나온다는 것을 알게 됐다”면서 “기존 모델이 80% 성능을 냈을 때 우리 모델은 89% 성능을 냈다”고 말했다.
앤서니 리 대표는 “의료 데이터 활용은 전 세계적인 문제”라며 “한국은 국가 차원에서 보험도 잘 만들어져 있어 데이터가 비교적 잘 구축된 편이지만 그렇지 않은 국가도 많아 이러한 데이터를 잘 활용할 수 있는 방안이 국가와 기업, 대학 사이에서 잘 마련돼야 한다”고 했다.