[칼럼] 공동 데이터센터, 초거대 AI 인프라 해법

김종원 GIST 인공지능대학원장
2024.10.24 08:00

김종원 광주과학기술원(GIST) 인공지능대학원장.

인공지능(AI)과 접목돼 진행중인 디지털전환(DX)은 초거대 AI의 등장과 더불어 지속적으로 가속화되고 있다. 전체 ICT 생태계에 융합된 데이터-AI 통합이 부분적 혁신을 뛰어넘어 ’피라미드 형상의 인프라-플랫폼-서비스의 계층을 역삼각형의 쐐기 형상으로 뒤집는 거꾸로(flipped) 프레임워크‘를 만들어가는 지렛대 역할을 수행하고 있다. 이러한 지렛대의 핵심이 되는 클라우드와 연계된 ICT 인프라의 구축에 있어서는 미국 기업들이 세계 시장을 과점 상태로 주도하면서 모든 대륙으로 계속해서 확산해 나가고 있다.

또한 확산 과정에서 쌓은 초거대 클라우드 데이터센터 구축‧운영 역량을 기반으로 초거대 AI 개발을 위한 군비경쟁에 버금가는 거대 규모 컴퓨팅 인프라 확충 경쟁에서도 후발 주자들의 추격이 어려워지는 가속도가 발생하는 ’초격차시대로 진입‘을 시사하고 있다.

2022년부터 본격화된 거대언어모델이 불붙인 초거대 AI 인프라 확산을 위한 세계적인 경쟁은 클라우드 기반 AI 데이터센터에 초점을 맞춰 진행되고 있다. 전략적인 거점지역을 중심으로 초대규모 상면 공간과 전력‧냉각 시설을 확보해 계산과 저장을 위한 컴퓨팅 장비들을 설치하고 초고속 광네트워크로 외부와 연결하는 AI 클라우드 데이터센터의 구축은 수십 개월의 시간과 많은 자본 투자를 요구한다.

특히 최근 구축되는 초거대 데이터센터들은 xAI를 위한 5조 수준의 10만 수냉식 H100 GPU(그래픽처리장치) 지원, 5년 내 가동을 목표하는 오픈AI 연합의 100조 수준 5GW 전력 장치(Stargate) 프로젝트 등과 같이 기존 규모를 크게 능가하는 추세이다. 덧붙여 엔비디아가 세계시장을 주도하는 최신 장비들은 초고가 노드들을 묶어서 규모를 키우는 스케일-업‧스케일-아웃 형태로 진행되고 있으며, 출시 예정인 랙당 40여억 원을 예상하는 NVL72 랙형 장비는 GB200 72장을 통합해 수냉기준 120kW 전력을 소모한다.

하지만 지구상에서 적은 인구와 한정된 재원을 가진 대한민국의 입장에서 조 단위로 커져 버린 초거대 AI 인프라 투자를 실현하는 것은 현실적으로 어려운 과제이다. 따라서 협력적인 AI 인프라 투자를 통해서 공동으로 설계‧구축하고 공통적인 방법으로 운영‧활용하는 공용 인프라 등을 통해서 ’띠끌모아 태산‘을 전략적으로 추구하는 것이 필요하다.

이를 위해서 ’공용주차장 개념의 공동활용 데이터센터‘ 공간‧시설을 조성해 개별 구축의 파편화를 해소하면서 공간‧에너지 효율성을 전체적으로 제고하면 효과적이다. 즉 적정규모 공동활용 데이터센터를 민관협력으로 빠르게 조성하여 5층 오피스빌딩이 사용하는 100kW 전력을 하나의 단일 랙이 사용하는 경우도 포함해 다양한 크기의 AI 컴퓨팅 장비를 유연하게 수용하도록 준비하는 것이다. 이를 통해 ’소형차, 버스, 트럭 등으로 비유되는‘ 장비들이 대용량 전력확보, 수냉‧방재 등 특수시설 비용, 초고속 네트워크 및 대형 스토리지 등의 요인으로 점차 한 곳에 모이게 만들고, 상황이 맞으면 서로 빌려주기 시작하면서 차차 공동으로 운용되면서 점차 공동활용이 촉진되는 AI 인프라 생태계의 매개체를 만들어주는 것이다.

또한 공동활용 데이터센터의 기본 시설로서 상호연동을 보장하는 초고속 네트워크로 ’연결된 데이터레이크(Connected DataLake) 개념‘의 안전한 데이터 저장‧교환을 기본적으로 지원해 다양한 분야를 넘나드는 데이터-AI 통합을 구조적으로 지원하는 것이다. 이러한 초거대 AI 인프라 생태계를 지원하는 협력중심으로 국가지정 국가 및 전문센터 등을 민관협력의 창구로 삼아서 단위-전문-국가 차원의 HPC-AI 협력구조를 만들어가는 것도 필요하다.

따라서 살아있는 데이터에 기반한 실증적인 X+AI 연구개발을 수행하는 근간이 되도록 산·학·관·연의 개방된 협업을 통해 국가차원의 초거대 AI 공동 활용 인프라의 시기적절한 적정량 확보를 통해 초격차 시대에 현명하게 대응할 수 있기를 기대한다.

HPC-AI 슈퍼컴퓨팅 기반 공동활용 초거대 AI 인프라 확보 전략. /GIST

페이스북 플러스친구 네이버포스트