-
고성능 인공지능(AI)의 최대 걸림돌로 크게 3가지를 꼽는다. 대량의 전기가 필요하고, 엄청난 비용이 발생하며, 투자대비 성능을 높이기가 쉽지 않다는 점이다. 이 ‘전력·비용·성능’ 문제를 풀 수 있는 플랫폼이 클라우드 형태로 제공될 예정이다.
AI 개발의 컴퓨팅 자원 할당 등의 기능을 제공하는 래블업은 초거대 AI에 사용된 ‘백엔드닷에이아이(백엔드.AI)’ 플랫폼을 퍼스널 클라우드와 팀 클라우드 형태로 제공할 예정이라고 밝혔다. 하드웨어가 없어 플랫폼 설치가 어려운 스타트업과 연구소에서 컴퓨팅 자원 걱정없이 해당 기능을 사용할 수 있을 것으로 전망된다.
AI가 다양한 서비스에 탑재돼 성능과 사용자 편의성을 높이면서 관련 기술 개발에 속도가 붙고 있다. 구글, 애플, 마이크로소프트 등 글로벌 빅테크 기업은 경쟁적으로 새로운 AI 기술을 선보이고 있고 삼성, LG, CJ, 네이버 등 국내 대기업도 AI 경쟁력 확보에 많은 투자를 하고 있다.
AI 기술 개발 경쟁은 시장 상황에서도 고스란히 나타난다. 시장조사업체 IDC는 지난 15일 발표한 보고서를 통해 향후 5년간 AI 솔루션 시장은 지속 성장한다고 전망했다. 올해 전 세계 AI 솔루션 시장 가치는 4500억 달러(약 634조 원)로 추정했다. 지난해 3400억 달러(약 479조 원)보다 32.3% 높은 수치다.
AI 시장이 커지면서 각 기업과 연구소들은 같은 비용과 시간을 투입해 더 효과적인 결과를 내는 데 주력하고 있다. AI 개발에 사용되는 그래픽처리장치(GPU) 등 컴퓨팅 자원이 워낙 고가이고 관련 제품 출시 주기가 짧아지고 있어서다. 또 기업들은 AI 개발에 발생하는 전력 사용량을 줄이는 방안도 고민하고 있다. 환경 문제가 최근 글로벌 관심사로 떠오른 만큼 데이터 학습과 추론에 사용되는 막대한 전력량을 줄여야 하는 과제를 안고 있기 때문이다.
이처럼 각 기업과 연구소가 공통으로 가진 문제를 해결하기 위해 나선 기업이 있다. ‘모든 랩(Lab)에 AI 기반 기술을 모두 사용하게 해주자’는 취지로 설립된 래블업이다. 신정규 래블업 대표는 본지와 인터뷰에서 AI 기업이 가진 공통 문제를 줄이기 위해 ‘백엔드닷에이아이(백엔드.AI)’ 플랫폼을 클라우드 형태로 제공할 계획이라고 밝혔다.
백엔드.AI는 하나의 플랫폼에서 AI, 머신러닝(ML), 고성능컴퓨팅(HPC)에 필요한 연구개발(R&D)과 비즈니스 서비스, AI 서비스 추론 등을 지원하는 서비스다. 삼성전자, LG전자, KT, 롯데, CJ 등 국내 대기업은 이 플랫폼을 활용해 거대 모델 등 AI를 개발하면서 비용, 성능, 전력 문제를 해결하고 있다.
래블업은 대기업이 거대한 모델에서 해결한 솔루션을 중소기업과 스타트업, 연구소들이 사용할 수 있도록 일부 기술을 오픈소스로 제공하고 있다. 또 플랫폼 설치가 어려운 사용자들을 위해 클라우드 형태로 제공한다는 계획이다.
신 대표는 “왠만한 거대한 AI 모델을 만드는 기업들은 현재 백엔드.AI로 관련 문제를 해결하고 있다”며 “대기업이 큰 시스템에서 해결한 솔루션들을 넓게 퍼뜨려 많은 개발자가 같은 어려움을 겪지 않게 하면 좋겠다는 생각에 관련 기술을 클라우드 형태로 제공하는 것을 준비하고 있다”고 말했다.
◇GPU 분할 가상화로 시간과 비용 절감
대기업들이 백엔드.AI로 가장 많이 풀고 있는 문제는 ‘GPU 분할 가상화’다. 하나의 GPU를 컨테이너별로 0.1GPU, 0.2GPU, 2.7GPU 등으로 나눠 유연하게 제공하는 기능이다. 숙소를 예로 들면 하나의 거대한 건물을 나눠서 사용한다고 보면 된다. 건물이 아무리 크더라도 방이 하나면 한 명의 사용자가 건물을 독점으로 사용하게 된다. 하지만 건물을 여러 방으로 나누면 여러 명이 사용할 수 있다.
이 기능은 AI 개발에서 시간과 비용을 아끼는 효과가 있다. 데이터 학습에 사용되는 GPU는 하나의 작업이 진행되고 있으면 다른 작업이 끼어들 수 없다. 하지만 데이터 학습에 GPU가 계속 동작하는 것은 아니다. 데이터는 가공과 연산, 분산처리, 추가 연산 등의 절차가 있는데 데이터를 가공하는 시간에는 GPU가 동작하지 않는다. 그러나 이 과정에도 다른 작업자는 이 GPU를 사용할 수 없다. 래블업은 이 문제를 극복하기 위해 GPU 분할 가상화 기술을 독자 개발했다. GPU라는 건물을 최대 20개로 쪼개 여러 명이 동시에 사용할 수 있게 한 것이다.
-
래블업은 GPU 공급사인 엔비디아의 기술 파트너로서 관련 기술을 제공하고 있다. 엔비디아의 ‘AI 엑셀러레이티드 프로그램’에도 아태지역에서 유일하게 AI 플랫폼 기업으로 가입돼 있다. AI 엑셀러레이티드는 파트너사가 개발한 솔루션의 성능과 신뢰성을 엔비디아가 보장한다는 취지의 프로그램이다.
신정규 대표는 “초거대 AI 인프라에는 백엔드.AI와 엔비디아 DGX를 클러스터를 결합한 슈퍼컴퓨터가 수천 개의 시뮬레이션을 실행하고 단시간에 수백만 개 데이터를 분석하고 있다”며 “이러한 기술을 많은 기업이 사용할 수 있도록 오픈소스 형태로 제공하고 이용하기 쉽도록 클라우드로도 제공하겠다”고 말했다.
◇AI 시스템 최적화 ‘하루 만에’
백엔드.AI의 또 다른 장점은 사용자 편의성이다. 사용자는 이 플랫폼으로 컴퓨팅 자원으로 이뤄지는 ‘백엔드’ 영역에서의 설계나 보안, 데이터 입출력 등의 업무를 지원한다. 사용자는 해당 플랫폼을 통해 자원 할당, 데이터 입출력, 분산처리, 재사용 등의 기능을 사용할 수 있다. 백엔드에 대한 지식과 관련 서비스 구축 없이도 관련 기능을 쉽게 사용할 수 있다고 보면 된다.
이 기능은 AI 개발 관리에도 유용하다. 하나의 조직이 할당받은 자원에서 얼마만큼의 사용률을 기록했는지를 한눈에 보여줘 필요한 자원은 더 할당하고 불필요한 자원은 줄여 비용 최적화를 이룰 수 있기 때문이다.
신 대표는 “우리 플랫폼은 AI 시스템을 최적화하거나 전체 시스템에 편의성을 제공하는 것을 목표로 한다”며 “구글이나 네이버와 같은 기업은 이 역할을 하는 팀이 따로 있지만 이러한 조직이 없는 기업은 같은 기능을 수행하기 위해선 18개월~24개월 정도 뒤처지게 된다. 우리 플랫폼은 이 시간을 단 하루로 줄여줘 시간과 비용 절감을 이룰 수 있다”고 설명했다.
-
◇AI 개발에 드는 전력 사용량 최대 25% 감소
신 대표는 백엔드.AI가 AI의 고질적인 문제인 전력 사용량 감소에도 기여할 수 있다고 밝혔다. GPU 자원을 할당하고 필요한 자원을 정확히 배분해 작게는 10~15%, 높게는 25%까지 전력 사용량을 줄일 수 있다고 설명했다.
이와 별개로 래블업은 AI 발생 전력 사용량을 줄이기 위해 지난해 플랫폼 전체를 ARM 제품 기반으로 구축했다. 다른 제품 대비 ARM 제품이 상대적으로 저전력 효과가 있기 때문이다.
신 대표는 “AI는 워낙 많은 전력을 소모하기 때문에 브라질 기업에 플랫폼을 공급할 때 전력 문제로 어려움을 겪은 적이 있다”며 “현실적으로 GPU에서 전력 사용량을 줄일 방법은 없어 중앙처리장치(CPU) 등 주변 장치의 전력 사용을 줄이기 위해 저전력 제품인 ARM으로 플랫폼을 전면 교체했다”고 말했다.
◇오픈소스와 클라우드로 기능 제공…‘모두를 위한 AI’ 꿈꾼다
래블업은 이와 같은 기술을 탑재한 백엔드.AI를 누구나 쉽게 사용할 수 있도록 ‘기업용 버전’과 별도로 오픈소스 형태로 제공하고 있다. 오픈소스는 누구나 무료로 사용할 수 있도록 제공하는 서비스다. 기업용 버전에 있는 상세모니터링, 사용량 체크, 조직관리, 전용 컨트롤 패널, 최적화 컨설팅 등의 기능을 제외한 모든 기능이 무료로 제공된다.
신 대표는 중소기업이나 스타트업, 연구소 등은 오픈소스 모델만 사용해도 충분히 AI 개발을 최적화시킬 수 있다고 밝혔다. 그는 “AI 관련 종사자가 적은 조직은 오픈소스만 이용해도 서비스 이용에 문제가 없을 것”이라며 “오픈소스로 공개하더라도 고객사가 설치나 사용에 어려운 부분이 있으면 문의 사항에 답변을 하고 있다”고 말했다.
래블업은 여기서 한 단계 더 나아가 클라우드 형태로도 백엔드.AI를 제공하고 있다. 플랫폼조차 설치하기 어려운 기업이나 하드웨어를 갖추지 못한 곳에 서비스를 제공하기 위해서다. 개인이 사용하는 ‘퍼스널 클라우드’는 2020년부터 준비해 베타 테스트로 제공하고 있고 여러 명이 사용할 수 있는 ‘팀 클라우드’는 하반기 베타 테스트 출시를 목표로 준비 중이다.
신 대표는 “AI 스타트업의 경우 개발자가 5~10명 정도가 있을 텐데 여기서도 인적 관리와 데이터 공유 등이 필요할 것”이라면서 “이들을 지원하기 위한 방법을 고민하다 팀 클라우드 버전을 준비하게 됐다”고 말했다. 이어 “하드웨어는 우리 측 부분을 사용하면 되기 때문에 보다 원활한 AI 기술을 개발할 수 있을 것”이라면서 “많은 기업과 연구소가 컴퓨팅 자원과 비용 등에 대한 고민 없이 좋은 AI 기술을 개발해나갔으면 좋겠다”고 희망했다.
- 김동원 기자 theai@chosun.com