“초거대 AI 실사용 어려워, ‘가성비 모델’ 수요 많아질 것”
신정규 래블업 대표, “개발·활용 모두 비싼 초거대 AI보단 ‘적정모델’이 유리”
빅테크 기업 간 초거대 인공지능(AI) 경쟁이 심화되는 가운데, 실질적인 개발 분야에선 초거대 모델보단 그 아래로 평가되는 ‘적정모델’ 수요가 더 커질 것이란 분석이 나왔다.
신정규 래블업 대표는 1일 서울시 강남구 디캠프에서 개최한 ‘개발자 컨퍼런스’에서 향후 2년간 AI 분야에서 초거대 AI보다 적정모델이 활용도 측면에서 더 높을 것으로 전망했다. 그는 “초거대 AI 모델을 실질적으로 사용하려면 모델을 압축해야 하는데 이 과정에선 필연적으로 정확도가 떨어진다”며 “AI를 실제로 사용하고 서비스를 창출하기 위해선 이 방법보단 적정모델을 사용하는 것이 유리하다”고 말했다. 이어 “이미 구글에서도 이러한 적정모델에 관한 서비스를 내놓고 있다”고 덧붙였다.
초거대 AI는 대용량 연산이 가능한 컴퓨팅 인프라를 기반으로 대규모 데이터를 학습한 AI 모델이다. 기존의 AI가 특정 분야 데이터를 학습해 그 분야에 맞는 결과물만 낼 수 있었다면 초거대 AI는 방대한 양의 데이터를 학습한 만큼 범용적으로 사용할 수 있다. 구글의 ‘람다(LaMDA)’와 ‘패스웨이(Pathways)’, 오픈AI의 ‘GPT-4’, ‘GPT-3’, ‘달리(DALL-E)’, 딥마인드의 ‘알파폴드2’, 메타의 ‘메타 AI’ 등이 여기에 속한다. 국내에선 네이버의 ‘하이퍼클로바’, LG AI연구원의 ‘엑사원’ 등의 모델이 있다.
초거대 AI는 많은 양의 데이터를 학습함으로써 기존 언어모델의 한계를 뛰어넘은 성과를 보여줬다. 단순히 언어만 학습해도 언어모델 안에서 논리 구조가 생긴다는 것을 입증한 것이 대표 사례다. 구글 패스웨이를 응용해 만든 ‘미네르바(Minerva)’ 모델만 봐도 알 수 있다. 미네르바는 수학 문제를 논리적으로 해결하는 모델이다. 간단한 수학 문제부터 과학 문제 풀이, 수학 증명 등을 말로 설명한다. 그런데 구글은 이 모델에 수학 문제를 학습시키지 않았다. 단순히 기호들만 학습시키고 계산하는 방법만 알려줬다. 하지만 이 모델은 7800억 개 단어를 사용해 훈련하고 4300억 개의 매개변수(파라미터)를 갖춘 패스웨이로 만든 덕분에 그 안에서 저절로 논리구조가 생겨 수학 문제를 설명했다.
이처럼 초거대 AI는 새로운 모델 개발 등에 활용될 수 있지만 꾸준히 발목 잡는 문제가 있다. 비용 문제다. 미네르바를 훈련한다고 가정하면, 저전력 반도체인 구글의 ‘텐서프로세서유닛(TPU) v3’를 활용해도 구글 클라우드에 약 304억 원의 돈을 지불해야 한다. 모델을 생성하기까지 드는 금액만 이정도다. 훈련까지 하게 되면 이 금액의 약 3배 정도가 소모된다.
초거대 AI 공급사는 이 비용 문제를 줄이기 위해 모델 사이즈를 줄인 ‘미니 모델’을 제공하고 있지만 여기서도 한계가 있다. 크기를 줄일수록 정확도가 필연적으로 희생되기 때문이다. 신 대표는 “초거대 AI를 미니화 하면 거대 모델의 장점이 없어진다”며 “이 모델을 사용할 바에 작은 크기의 모델을 사용하는 것이 더 유리할 수 있다”고 말했다.
여기서 언급된 작은 크기 모델은 10억 원 이하 AI 모델을 의미한다. 구글 ‘버트(BERT)’나 오픈AI의 ‘GPT-2’를 비롯해 AI 개발 입문에 많이 사용되는 ‘욜로(YoLo)’, ‘엠니스트(MNIST)’ 등이 여기에 포함된다. 하지만 이 모델들은 기업이 실제 서비스를 창출하기 한계가 있는 단점이 있다. 현재 AI 업계에서는 해마다 사이즈가 10배 이상 커진 모델이 등장하고 있다. 작은 크기의 모델은 이 모델들과 경쟁해 연구까진 가능해도 실제 서비스를 상용화하기에는 속도나 성능 등에 한계가 있다는 설명이다.
신 대표는 초거대 AI 모델과 작은 크기의 모델의 격차를 줄이기 위해선 그 중간인 적정모델이 필요하다고 밝혔다. 초거대 AI의 비용 문제를 해결하면서도 기업이 서비스 창출에 실질적으로 이용할 수 있는 모델이기 때문이다. 구글이 2019년에 발표한 ‘T5’가 적정모델에 가까운 AI 모델로 평가된다.
구글은 최근 이 T5를 최적화할 수 있는 ‘랭크T5(RankT5)’를 발표했다. 신 대표는 구글의 랭크T5 발표가 적정모델 트렌드를 증명하는 사례라고 밝혔다. 그는 “구글이 2019년 개발한 T5의 최적화 모델을 3년 뒤인 지금 공개해 뜬금없다고 생각하는 사람도 있지만, 그 이유는 T5가 현재 가장 많이 사용되는 모델이기 때문”이라며 “GPT-3와 같은 초거대 AI를 일반 개발자가 사용하기 어려운 환경에서 T5는 어느 정도 성과를 낼 수 있어 구글이 이에 따른 최적화 모델을 만든 것”이라고 설명했다. 이어 “최근 2년간 AI 분야에 초거대 AI로 인한 많은 변화가 있었는데 앞으로 2년은 비용과 전력 문제 등의 문제로 이러한 초거대 AI의 실사용보단 적정모델 사용이 더 많아질 것”이라고 말했다.