조직 병리 이미지 처리 특화 모델 ‘엑사원패스’, 오픈모델로 공개
성능과 경제성 모두 확보, 의료계 AI 연구 활성화 기대

LG AI연구원이 조직 병리 이미지 처리 특화 모델 ‘엑사원패스(EXAONEPath)’를 오픈 모델로 공개했다. /LG AI연구원 블로그 캡처

LG AI연구원이 ‘바이오 전문 AI’를 오픈 모델로 공개했다. 지난 7일 ‘엑사원 3.0’ 중 성능과 경제성에 있어 가장 활용도가 높은 경량 모델인 7.8B 언어모델을 오픈 모델로 공개한 지 보름 만이다.

전문가 AI 모델을 지향해 온 LG AI연구원은 23일 블로그를 통해 조직 병리 이미지 처리 특화 모델 ‘엑사원패스(EXAONEPath)’를 오픈 모델로 공개한다고 밝혔다. 조직 병리 이미지는 임상의학 분야에서 필수 데이터로 꼽힌다. 조직 병리 이미지 분석을 통해 세포와 조직 특성을 파악하고 진단명 확정, 치료, 복약 계획 등을 수립할 수 있어서다. 

하지만 이 이미지는 분석에 어려움이 있었다. 이미지 크기가 크고, 색조 범위가 범용 이미지와 다르기 때문이다. 조직 병리 이미지에서 다루는 객체도 핵, 세포질 등 한정적이라는 점도 제한점이었다. 이에 의료계에서는 조직 병리 이미지를 효율적으로 처리하고 분석할 수 있는 특화 모델 개발의 필요성이 제기됐다. LG AI연구원은 이러한 요구에 따라 조직 병리 이미지에 특화한 엑사원패스를 오픈소스로 공개했다고 밝혔다.

LG AI연구원에 따르면, 엑사원패스는 성능과 경제성을 모두 확보했다. 6가지 벤치마크를 활용한 결과 조직 병리 이미지 분석 정확도가 글로벌 빅테크 경쟁 모델과 유사 수준으로 높다. 경제성은 다르다. 경쟁 모델과 비교해 모델 크기는 10분의 1로 작다. 학습 데이터도 적게 사용했다. 데이터 학습에 사용된 인프라가 적어 경제성이 높다. 더 적은 전력을 사용해 친환경적이라는 이점도 있다.

LG AI연구원 측은 “엑사원패스는 바이오 분야 혁신의 시장이 되어줄 것으로 기대한다”고 밝혔다. “AI가 조직 병리 이미지를 이해하고 분석할 수 있게 되면, 기존 유전자 검사 단계 없이도 유전자 변이를 예측하고 적합한 치료 방법과 약의 종류를 결정할 수 있다”면서 “최대 2주까지 소요되던 기존의 유전자 검사 기간을 단축함으로써 시간과 비용을 모두 줄일 수 있게 될 것”이라고 설명했다.

엑사원패스의 파라미터 수와 학습 슬라이드 수 대비 성능, 다른 모델과 비교해 성능과 경제성 모두 높다는 것을 알 수 있다. /LG AI연구원 블로그 캡처

LG AI연구원은 최근 자체 모델을 오픈하면서 AI 생태계 강화에 힘쓰고 있다. 회사는 2021년 12월 세계에서 처음으로 양방향 멀티모달 기능을 탑재한 엑사원 1.0을 선보인 후 2023년 신뢰성과 전문성을 고도화한 엑사원 2.0을 선보였다. 하지만 이 모델들은 대중에 많이 알려지지 않았다. 성능이 우수하다곤 알려졌지만, 모델이 공개되지 않았다. 그동안 엑사원은 LG 내부용으로만 사용할 수 있었다. 해당 모델을 활용하려면 LG와 별도 얼라이언스를 체결하는 등의 과정이 필요했다. 

하지만 LG AI연구원은 올해 정책을 바꿨다. 엑사원 3.0 7.8B 모델을 연구 목적으로 오픈했고, 이번 엑사원패스도 오픈모델로 공개했다. 초거대 AI를 만드는 국내 대기업에서 모델을 오픈한 것은 LG AI연구원이 처음이다. 글로벌 빅테크 기업조차 트레이닝 소스코드까진 오픈하지 않고 있지만, 회사는 과감하게 소스코드까지 공개했다. LG의 이번 정책은 AI 생태계 활성화에 있다. LG AI연구원 관계자는 “AI 기술이 빠르게 발전하는 상황에서 연구 생태계 활성화에 작게나마 기여하기 위해 오픈소스 공개를 결정했다”며 “지금은 모델을 공개하는 것이 AI 생태계에 긍정적인 영향을 줄 수 있다고 판단했다”고 말했다.

긍정적인 부분은 이 모델들이 우수한 성능에도 불구하고 학습 데이터가 적고 모델 크기가 작아 경제성이 높다는 점이다. 대학이나 연구기관 등에서는 큰 비용 지출 없이 연구를 할 수 있다. 특히 의료 분야에서는 이 모델을 활용해 부족한 데이터를 기술로 극복할 수 있을 것으로 전망된다. 국내 1세대 AI 연구자인 김진형 KAIST 명예교수는 “데이터가 그렇게 많지 않음에도 상당한 수준의 모델을 만든 것을 보았을 때 LG AI연구원 내부적으로 큰 노력을 한 것”이라며 “힘들게 만든 모델을 생태계 발전을 위해 오픈한 것은 참 고마운 일”이라고 말했다.

LG AI연구원은 블로그를 통해 학습 데이터 부족이라는 현실적 문제를 해결하기 위한 연구를 이어가고 있다고 밝혔다. 통합 네트워크에 자기지도·비지도 학습을 적용하기 위한 연구를 진행하고 있고, 여기에서 조직 병리 이미지와 관련한 다수의 환자 데이터와 랩 데이터를 함께 사용하고 있다고 설명했다. 회사 측은 “다양한 환자 데이터를 통해 환자의 상태와 치료 방법을 발견하고, 나아가 인류의 삶을 증진하는 데 기여할 수 있도록 의료 AI 분야 연구에 매진하겠다”고 전했다.

홈으로 이동 상단으로 이동