[AWS 리인벤트 2025] AWS는 왜 자체 칩을 만들었을까
가상화에서 시작된 니트로, 그래비톤과 트레이니움까지 연결
트레이니움3 울트라 서버에 함께 작동, 효율성 ↑
GPU 사용자도 코드 한 줄 변경하면 트레이니움 사용 가능
아마존웹서비스(AWS)가 자체 설계한 세 가지 반도체 칩이 한 집에 짐을 풀었다. 하나의 서버에서 함께 작동한다. 가상화를 담당하는 ‘니트로(Nitro)’, 서버 프로세서 ‘그래비톤(Graviton)’, AI 훈련 칩 ‘트레이니움(Trainium)’ 이야기다.
4일(현지시간) 미국 라스베이거스에서 열린 ‘AWS 리인벤트 2025’에서 공개된 ‘트레이니움3 울트라 서버’에는 이 세 가지 칩이 모두 탑재됐다. 데이브 브라운 AWS 부사장은 “AWS가 실리콘부터 서버 아키텍처까지 전체 스택을 제어하기 때문에 가능한 설계”라고 설명했다.
◇ AWS가 자체 반도체를 만들게 된 이유
AWS의 자체 반도체 개발은 2010년 가상화 성능 문제를 해결하는 과정에서 시작됐다. 당시 AWS는 EC2 서비스를 출시한 지 몇 년이 지났고, 고객들은 다양한 워크로드를 실행하고 있었다. 대부분의 경우 성능은 문제가 없었지만, 가장 까다로운 워크로드에서는 '지터(jitter)'라는 현상이 발생했다. 성능이 갑자기 떨어지는 문제였다.
브라운 부사장은 “당시 일반적인 견해는 가상화가 베어메탈 서버(가상화 소프트웨어 없이 하드웨어를 직접 사용하는 서버) 성능을 절대 제공할 수 없다는 것”이었다며 “하지만 이는 모든 워크로드를 실행하겠다는 EC2의 미션과 맞지 않았다”고 말했다. AWS 엔지니어들은 최적화를 통해 많은 진전을 이뤘지만, 결국 베어메탈 성능에 도달할 방법이 없다는 결론에 도달했다.
AWS는 그 답을 ‘니트로 시스템’에서 찾았다. AWS가 설계한 맞춤형 칩인 니트로는 가상화를 서버에서 분리해 전용 하드웨어로 옮겼다. 이를 통해 지터 문제를 완전히 제거했고, 베어메탈과 같거나 더 나은 성능을 달성했다. 브라운 부사장은 “니트로는 실제로 자체 칩을 구축해 핵심 제품 속성들을 구현한 깊은 투자의 예”라고 설명했다. 니트로 시스템은 AWS가 자체 칩을 만들기 시작한 이유가 됐고, 이는 그래비톤과 트레이니움으로 이어졌다.
참고로 그래비톤5에는 6세대 니트로 카드가 탑재됐다. 가상화, 스토리지, 네트워킹 기능을 전용 하드웨어로 분리해 서버의 컴퓨팅과 메모리 리소스를 거의 모두 워크로드에 직접 제공한다. 니트로 아이솔레이션 엔진은 형식 검증을 활용해 워크로드 간 격리가 수학적으로 보장된다. 브라운 부사장은 “수학적으로 입증된 클라우드 보안의 새로운 기준을 제시한다”고 말했다.
◇ 그래비톤으로 이어진 반도체 혁신, 냉각도 고민
니트로 시스템 내부에서 작업하면서 AWS는 자연스러운 질문에 도달했다. “맞춤형 실리콘이 네트워크와 스토리지를 개선할 수 있다면, 컴퓨팅에도 적용할 수 있지 않을까”라는 질문이었다. 브라운 부사장은 “서버 프로세서를 클라우드 워크로드를 위해 특별히 설계한다면 어떻게 될까 생각했다”고 설명했다.
여기서 나온 게 그래비톤이다. 그래비톤 프로세서는 클라우드에서 고객이 매일 실행하는 워크로드에 최고의 가격 대비 성능을 제공하도록 설계됐다. 어도비는 배출량을 37% 줄이고 있고, 에픽게임즈는 대규모 저지연 글로벌 게임 워크로드를 구동하고 있으며, 포뮬러1은 시뮬레이션을 40% 더 빠르게 실행하고 있다. 핀터레스트는 비용을 47% 낮췄고, SAP는 35%의 성능 향상을 확인했다.
AWS는 여기서 최고의 가격 대비 성능을 제공하기 위한 방법을 고민했다. 이를 위해선 모든 레이어에서 세심한 주의가 필요했다. 브라운 부사장은 “프로세서와 서버를 모두 설계하기 때문에 전체 스택을 최적화할 수 있다”며 “여기에는 고객이 잘 생각하지 않는 냉각도 포함된다”고 말했다.
전통적인 냉각 방식은 실리콘 위에 열전도 물질, 보호 덮개, 물, 히트싱크를 순서대로 배치한다. 열 전달 경로의 모든 레이어가 열 이동을 늦추므로, 더 많은 저항은 더 높은 접합부 온도로 이어진다. 더 높은 온도는 누설을 증가시키고, 더 높은 누설은 전력 소비를 증가시킨다.
AWS는 그래비톤의 전체 시스템을 제어하기 때문에 다르게 생각할 기회가 있었다. 직접 실리콘 냉각 솔루션을 설계했다. 덮개와 열전도 물질 층을 제거해 저항을 줄이고 열이 더 효율적으로 이동할 수 있게 했다. 팬 전력이 33% 감소했다. 브라운 부사장은 “전체 스택을 제어하기 때문에만 이런 일을 할 수 있었다”고 강조했다.
이번에 출시한 그래비톤5는 192개 코어를 단일 패키지로 제공하며, L3 캐시가 이전 세대 대비 5배 이상 증가했다. 각 코어가 사용할 수 있는 L3 캐시는 2.6배 늘어났다. M9g 인스턴스로 제공되는 그래비톤5는 M8g 대비 최대 25%의 성능 향상을 제공한다.
◇ 트레이니움3, 한 줄 코드로 마이그레이션
트레이니움은 AWS의 AI 워크로드 전용 칩이다. 브라운 부사장은 “트레이니움은 거의 모든 상상할 수 있는 AI 워크로드를 지원한다”며 “밀집 트랜스포머부터 전문가 혼합, 상태 공간 모델까지, 텍스트, 이미지, 비디오 등 모든 모달리티를 지원한다”고 말했다.
트레이니움3 울트라 서버는 144개의 트레이니움3 칩을 2개 랙에 통합했다. 360페타플롭스의 8비트 부동소수점 연산 성능과 20테라바이트의 고대역폭 메모리를 갖췄다. 트레이니움2 울트라 서버와 비교하면 컴퓨팅 성능은 4.4배, 메모리 대역폭은 3.9배 향상됐다.
트레이니움 슬레드 하나를 살펴보면 AWS의 세 가지 맞춤형 칩이 모두 같은 보드에 있다. 4개의 트레이니움3 가속기가 보드 끝에 위치하고, 바로 옆에 그래비톤 프로세서가 있다. 그래비톤은 이 가속기들을 바쁘게 유지하는 데 필요한 고속 입출력을 제공한다. 2개의 니트로 카드는 매우 높은 속도의 네트워크를 제공한다. 니트로는 수천 개의 트레이니움 서버가 암호화된 채널로 서로의 메모리를 직접 읽고 쓸 수 있게 한다.
트레이니움3는 여러 마이크로 아키텍처 최적화를 추가했다. 마이크로 스케일링은 낮은 정밀도 부동소수점 숫자를 사용하면서도 큰 매개변수 모델의 정확도를 유지한다. 브라운 부사장은 “이런 최적화는 스펙 시트에 나타나지 않지만, 일반적인 AI 컴퓨팅 문제를 해결해 컴퓨팅 엔진이 다른 작업을 할 수 있도록 해방시킨다”고 말했다.
이스라엘 스타트업 데카르트AI가 대표 사례다. 딘 레이터스도르프 데카르트AI CEO는 기조연설 무대에서 발표자를 실시간으로 만화 캐릭터로 변환하는 데모를 선보였다. 그는 “트레이니움3에서 초당 프레임 수가 GPU 대비 4배 빠르다”며 “80%의 텐서 코어 활용률을 달성했다. 이런 수치는 AI에서 듣기 힘든 것”이라고 강조했다.
트레이니움은 파이토치 네이티브 지원도 시작한다. 기존에 엔비디아 GPU용으로 작성된 코드에서 ‘to(cuda)’를 ‘to(neuron)’로 한 줄만 변경하면 트레이니움에서 실행할 수 있다. 브라운 부사장은 “연구자, 학생, 모든 개발자가 새로운 소프트웨어 스택을 배울 필요 없이 트레이니움을 사용할 수 있게 됐다”고 강조했다.