자체 실리콘 전략 앞세워 대규모 AI 추론 비용 감소해
FP4·FP8 기반 고밀도 추론 성능으로 애저 인프라 효율 개선
US 센트럴 지역 시작으로 애저 데이터센터에 배포할 계획 밝혀

마이아 200. /MS

마이크로소프트(이하 MS)가 대규모 AI 추론의 경제성을 개선하기 위해 설계한 자체 추론 가속기 ‘마이아 200(Maia 200)’을 공개했다. 이 칩은 애저 데이터센터 환경에서 대형언어모델(LLM)을 효율적으로 구동하는 데 초점을 맞췄다.

마이아 200은 TSMC의 3나노미터 공정을 기반으로 제작됐으며, 고성능 추론에 특화한 메모리·연산 구조를 갖췄다. 216GB 용량의 HBM3e 메모리를 탑재해 초당 7TB 수준의 메모리 대역폭을 제공하고, FP8과 FP4 정밀도를 네이티브로 지원하는 텐서 연산 유닛과 데이터 이동 엔진을 결합했다. 이는 거대 모델 추론 과정에서 병목으로 지적된 메모리 접근과 데이터 이동 문제를 최소화하기 위한 설계다. 

MS에 따르면, 마이아 200의 FP4 기준 처리량은 3세대 아마존 트레이니움 대비 약 3배 높은 수준이며, FP8 정밀도에서도 구글의 7세대 TPU보다 높은 추론 처리 성능을 기록했다. 이에 MS는 애저 내부 최신 하드웨어 대비 달러당 성능을 약 30% 개선했다고 설명한다. 이는 AI 서비스 수익성과 직결되는 추론 비용 문제를 정면으로 겨냥한 수치다. 

마이아 200은 마이크로소프트의 이기종 AI 인프라 전략에서 핵심 축을 맡는다. 오픈AI의 최신 GPT-5.2 모델을 포함해 다양한 대형 모델을 지원하며, 마이크로소프트 파운드리와 마이크로소프트 365 코파일럿과 같은 상용 서비스의 비용 대비 성능 효율을 끌어올리는 데 활용된다. 이는 GPU 중심 구조에 자체 가속기를 병행 배치함으로써 특정 벤더 의존도를 낮추고 워크로드 특성에 맞는 인프라 선택지를 넓히겠다는 의도다. 

사내 AI 개발 조직인 마이크로소프트 슈퍼인텔리전스 팀도 마이아 200을 적극 활용할 계획이다. 이 팀은 차세대 모델 개선을 위한 합성 데이터 생성과 강화 학습 과정에 해당 칩을 투입해 도메인 특화 데이터의 생성과 필터링 속도를 높이고 후속 학습 단계에 정교한 신호를 공급한다는 전략이다. 대규모 추론 성능이 연구 개발 영역까지 확장되는 셈이다. 

시스템 아키텍처 역시 마이아 200의 차별화 요소다. 1400억 개 이상의 트랜지스터를 집적한 이 가속기는 750W 수준의 TDP 범위 내에서 FP4 기준 10PFLOPS 이상, FP8 기준 5PFLOPS 이상의 성능을 제공한다. MS는 이를 대규모 클러스터 환경에서도 안정적으로 유지하기 위해 표준 이더넷 기반의 2계층 스케일업 네트워크를 도입했다. 독점 패브릭 대신 맞춤형 전송 계층과 통합 NIC를 활용해 성능과 신뢰성, 비용 효율을 동시에 확보했다는 설명이다. 

각 가속기는 초당 2.8TB의 양방향 스케일업 대역폭을 제공하며, 최대 6144개 가속기를 하나의 클러스터로 묶어도 일관된 성능을 유지하도록 설계됐다. 트레이 단위에서는 4개의 가속기를 직접 연결해 내부 통신 효율을 높였고, 동일한 통신 구조를 랙 단위까지 확장해 운영 복잡도를 낮췄다. 이는 대규모 애저 데이터센터에서 전력 소모와 전체 소유 비용을 줄이기 위한 접근이다. 

개발 프로세스에서도 기존 반도체 프로젝트와 다른 방식이 적용됐다. 마이크로소프트는 설계 초기 단계부터 LLM의 연산·통신 패턴을 반영한 프리 실리콘 환경을 구축해 칩 제작 전부터 네트워킹과 시스템 소프트웨어를 함께 검증했다. 데이터센터 투입 준비 역시 병행함으로써 백엔드 네트워크와 2세대 액체 냉각 시스템을 조기에 검증했다. 그 결과 칩 입고 후 수일 만에 실제 모델 구동에 성공했고, 데이터센터 배치까지의 기간을 기존 대비 절반 이하로 단축했다.

마이아 200은 미국 아이오와주 디모인 인근 US 센트럴 지역을 시작으로 애저 데이터센터에 배포되며, 이후 애리조나주 피닉스 인근 US 웨스트 3 지역 등으로 확대될 예정이다. 아울러 MS는 개발자와 연구자가 조기에 워크로드를 최적화하도록 ‘마이아 200 SDK’ 프리뷰도 공개했다. 이 SDK는 트라이톤 컴파일러와 파이토치 지원, 마이아 시뮬레이터와 비용 계산기를 포함해 개발 초기 단계부터 운영 효율을 정밀하게 검토하도록 설계됐다. 

홈으로 이동 상단으로 이동