포커스

[AWS 리인벤트 2025] 애플도 합격점 준 컴퓨팅 칩 ‘그래비톤’, 5세대 공개

  • 미국 라스베이거스=김동원 기자
기사입력 2025.12.05 08:37
그래비톤5, 192코어·3나노 공정… 에어비앤비·SAP도 성능 입증
트레이니움3, AI 훈련비용 40% 절감… 한 줄 코드로 GPU 전환
韓트 웰브랩스, S3 벡터로 수십억 영상 검색 “100ms 만에 처리”
  • 파얌 미르라시디 애플 클라우드 시스템 및 플랫폼 부사장은 AWS 그래비톤을 활용해 40% 성능 향상과 30% 비용 절감을 달성했다고 밝혔다.
    ▲ 파얌 미르라시디 애플 클라우드 시스템 및 플랫폼 부사장은 AWS 그래비톤을 활용해 40% 성능 향상과 30% 비용 절감을 달성했다고 밝혔다.

    “앱스토어, 애플뮤직, 애플TV 등 수십억 명이 매일 사용하는 애플 서비스 대부분이 아마존웹서비스(AWS)에서 실행됩니다.”

    파얌 미르라시디 애플 클라우드 시스템 및 플랫폼 부사장이 4일(현지시간) 미국 라스베이거스에서 열린 ‘AWS 리인벤트 2025’ 기조연설에서 밝힌 말이다. 그는 AWS의 자체 CPU ‘그래비톤(Graviton)’을 활용해 40%의 성능 향상과 30%의 비용 절감을 달성했다고 공개했다. AWS가 엔비디아 의존도를 낮추기 위해 개발한 자체 반도체가 세계에서 가장 까다로운 고객 중 하나인 애플의 검증을 통과한 셈이다.

    AWS는 이날 행사에서 5세대 서버 프로세서 ‘그래비톤5’와 3세대 AI 훈련 칩 ‘트레이니움3(Trainium 3)’를 공개했다. 피터 데산티스 AWS 부사장은 “AI 애플리케이션이 클라우드 인프라에 엄청난 혁신을 가져올 것”이라며 “보안, 가용성, 성능, 확장성, 비용 등 AWS 클라우드의 핵심 속성은 AI 시대에 더욱 중요해졌다”고 말했다.

    이번 발표에서 주목할 점은 AWS가 단순히 신제품 스펙을 나열하는 대신, 실제 고객사들을 무대에 직접 초청해 생산 환경에서의 활용 사례를 공개했다는 것이다. 애플을 비롯해 한국 스타트업 트웰브랩스, 이스라엘의 데카르트AI 등이 기조연설 무대에 올라 AWS 자체 칩의 성능을 입증했다.

    ◇ 애플 “스위프트와 그래비톤 조합으로 핵심 서비스 운영”

    미르라시디 부사장은 그래비톤을 활용한 실제 성과를 공개했다. “스위프트(Swift) 프로그래밍 언어와 그래비톤을 결합해 핵심 서비스를 운영하면서 40%의 성능 향상과 30%의 비용 절감을 달성했다”며 “전 세계에서 가장 큰 인터넷 서비스를 운영하는 우리는 AWS와 자체 데이터센터를 결합한 하이브리드 환경을 운영하고 있으며, 여러분과 같은 확장성, 성능, 신뢰성 문제를 해결하고 있다”고 설명했다.

    애플은 10년 전 자사 기기를 ARM 아키텍처로 전환한 경험을 바탕으로, AWS 그래비톤을 통해 서버 인프라도 ARM 기반으로 이전하고 있다. 미르라시디 부사장은 “애플은 10년 이상 전에 ARM으로 전환해 기업용 제품을 구동했고, 이제 그래비톤을 통해 인프라에서 더 많은 가치를 얻고 있다”면서 “더 높은 처리량은 더 적은 인스턴스를 의미하고, 이는 더 낮은 비용과 더 작은 환경 발자국으로 이어진다”고 설명했다.

    그래비톤5는 192개 코어를 단일 패키지로 제공하며, L3 캐시가 이전 세대 대비 5배 이상 증가했다. 데이브 브라운 AWS 부사장은 “그래비톤4에서는 코어 수를 50% 늘렸지만 L3 캐시는 12%만 증가했다”며 “더 많은 코어가 상대적으로 작은 L3 캐시를 공유하면서 캐시 미스가 증가했다”고 설명했다.

    그래비톤5는 이 문제를 해결하기 위해 각 코어가 사용할 수 있는 L3 캐시를 2.6배 늘렸다. 코어 간 데이터 이동 거리가 줄어들면서 통신 지연 시간은 최대 33% 단축됐다.

  • 데이브 브라운 AWS 부사장은 “그래비톤5는 각 코어가 사용할 수 있는 L3 캐시를 2.6배 늘려 코어 간 데이터 이동 거리가 줄어들면서 통신 지연 시간이 최대 33% 단축됐다”고 밝혔다.
    ▲ 데이브 브라운 AWS 부사장은 “그래비톤5는 각 코어가 사용할 수 있는 L3 캐시를 2.6배 늘려 코어 간 데이터 이동 거리가 줄어들면서 통신 지연 시간이 최대 33% 단축됐다”고 밝혔다.

    M9g 인스턴스로 제공되는 그래비톤5는 최신 3나노미터 공정 기술을 채택했으며, M8g 대비 최대 25%의 성능 향상을 제공한다. 네트워크 대역폭은 인스턴스 크기 전반에 걸쳐 평균 최대 15% 향상됐고, 가장 큰 인스턴스의 경우 최대 2배 증가했다. 아마존 EBS 대역폭도 최대 20% 향상됐다.

    ◇ 실제 고객사에서 증명한 성과들, 냉각과 보안도 향상

    초기 고객사인 에어비앤비는 최대 25%의 성능 개선을 확인했고, 패스틀리는 20% 낮은 레이턴시를, 허니컴IO는 코어당 36% 향상된 성능을 기록했다. SAP는 SAP HANA 클라우드의 OLTP 쿼리에서 35~60% 향상된 성능을 달성했다. 아틀라시안은 그래비톤5에서 지라를 테스트한 결과, 이전 세대 대비 성능이 30% 향상되고 지연 시간이 20% 감소하는 것을 확인했다.

    반도체 설계 도구 업체 시놉시스는 그래비톤5 초기 테스트에서 퓨전 컴파일러와 프라임타임의 런타임이 최대 35% 개선됐다고 밝혔다. 시놉시스의 파트너인 ARM은 VCS 런타임이 이전 세대 대비 최대 40% 빨라진 것을 확인했다. 지멘스는 그래비톤4 환경에서 동급 인스턴스 대비 20%의 성능 향상과 최대 30%의 비용 절감을 달성했으며, 그래비톤5 초기 테스트에서는 추가로 20% 이상의 성능 향상을 확인했다.

    애플은 스위프트 언어를 서버 개발에도 적극 활용하고 있다. 미르라시디 부사장은 “단일 개발자가 클라이언트와 서버 측을 모두 처리할 수 있다”며 “클라이언트 로직을 라이브러리로 전환해 서버에서 실행하면서 단일 코드베이스를 유지할 수 있다”고 말했다. iOS 18의 스팸 탐지 기능이 대표적인 사례다. 사용자 아이폰의 메시지 앱과 서버의 스팸 탐지 기능이 같은 스위프트 언어로 작성됐고, 동형 암호화 기술을 활용해 서버가 데이터를 복호화하지 않고도 수억 명의 사용자를 보호할 수 있다.

    그는 “AI와 바이오컴퓨팅 시대에 우리가 선택하는 언어는 매우 중요하다”며 “스위프트의 가독성과 안전성은 AI 툴체인에 훌륭한 추가 요소”라고 강조했다. AWS는 아마존 리눅스용 네이티브 스위프트 툴체인을 공식 패키지로 제공하는 첫 리눅스 배포판이 됐다.

    그래비톤의 효율성은 냉각 시스템에서도 드러난다. 브라운 부사장은 “전통적인 CPU는 실리콘 위에 열전도 물질, 보호 덮개, 히트싱크를 순서대로 배치한다”며 “각 층이 열 전달을 늦추고 저항을 높여 전력 소비를 증가시킨다”고 설명했다. 그래비톤은 덮개와 열전도 물질 층을 제거하고 실리콘에 직접 냉각수를 접촉시키는 ‘직접 실리콘 냉각’ 방식을 채택했다. 이를 통해 팬 전력을 33% 절감했다. 브라운 부사장은 “전체 시스템을 제어하기 때문에 이런 설계가 가능했다”고 말했다.

    그래비톤5는 보안도 강화했다. 6세대 니트로 카드를 활용해 가상화, 스토리지, 네트워킹 기능을 전용 하드웨어로 분리하는 AWS 니트로 시스템을 기반으로 구축됐다. 새롭게 도입된 니트로 아이솔레이션 엔진은 형식 검증을 활용해 워크로드 간 격리가 수학적으로 보장된다. AWS는 “고객이 니트로 아이솔레이션 엔진의 구현과 결과 증명을 직접 평가할 수 있도록 액세스를 제공할 예정”이라고 밝혔다.

    ◇ 트레이니움3 “AI 훈련 비용 40% 낮춰”

    AWS는 AI 훈련 칩 트레이니움3도 공개했다. 144개의 칩을 2개 랙에 통합한 ‘울트라 서버’ 형태로 제공되며, 360페타플롭스의 8비트 부동소수점 연산 성능과 20TB(테라바이트)의 고대역폭 메모리를 갖췄다. 2세대인 트레이니움2 울트라 서버와 비교하면 컴퓨팅 성능은 4.4배, 메모리 대역폭은 3.9배 향상됐다.

    브라운 부사장은 “AI 워크로드가 폭발적으로 증가하면서 이를 실행하는 비용이 매우 높아지고 있다”며 “트레이니움3는 가장 까다로운 AI 워크로드에서도 기존 대비 최대 40% 낮은 비용을 제공한다”고 말했다. 그는 “오픈AI의 GPT 모델을 트레이니움2와 트레이니움3에서 실행해 비교한 결과, 메가와트당 출력 토큰이 5배 증가했다”고 덧붙였다.

    트레이니움 울트라 서버에는 AWS의 세 가지 자체 설계 칩이 모두 들어간다. 36개의 슬레드로 구성된 서버에는 4개의 트레이니움3 가속기와 그래비톤 프로세서, 2개의 니트로 네트워크 카드가 장착된다. 브라운 부사장은 “그래비톤을 트레이니움과 같은 슬레드에 배치함으로써 별도의 헤드 노드가 필요 없어졌고, 그만큼 더 큰 울트라 서버를 구축할 수 있다”고 설명했다.

    니트로 카드는 엘라스틱 패브릭 어댑터를 제공해 수천 개의 트레이니움 서버가 암호화된 채널로 서로의 메모리를 직접 읽고 쓸 수 있게 한다. 브라운 부사장은 “대규모 모델을 훈련하려면 이런 기능이 필수”라고 강조했다.

    트레이니움3는 여러 마이크로 아키텍처 최적화를 추가했다. 낮은 정밀도 부동소수점 숫자를 사용하면서도 모델 정확도를 유지하는 ‘마이크로 스케일링’, 더 빠른 소프트맥스, 백그라운드 텐서 전송 등이 포함됐다. 브라운 부사장은 “이런 최적화는 스펙 시트에 나타나지 않지만, 일반적인 머신러닝 문제를 해결해 컴퓨팅 엔진이 다른 작업을 할 수 있게 만든다”고 말했다.

  • 딘 레이터스도 데카르트AI CEO는 “트레이니움3에서 우리 모델 스택을 최적화한 결과, GPU 대비 4배 빠른 초당 프레임 수를 달성했고 텐서 코어 활용률도 80%에 달한다”고 말했다.
    ▲ 딘 레이터스도 데카르트AI CEO는 “트레이니움3에서 우리 모델 스택을 최적화한 결과, GPU 대비 4배 빠른 초당 프레임 수를 달성했고 텐서 코어 활용률도 80%에 달한다”고 말했다.

    이스라엘 스타트업 데카르트AI는 트레이니움3의 성능을 실시간으로 시연했다. 딘 레이터스도르프 데카르트AI CEO는 기조연설 무대에서 발표자의 모습을 라이브로 만화 캐릭터로 변환하는 데모를 선보였다. 레이터스도르프 CEO는 “트레이니움3에서 우리 모델 스택을 최적화한 결과, GPU 대비 4배 빠른 초당 프레임 수를 달성했고 텐서 코어 활용률도 80%에 달한다”고 말했다.

    데카르트AI는 ‘NKI(Neuron Kernel Interface)’라는 뉴런 커널 인터페이스 언어를 사용해 최적화 작업을 진행했다. NKI는 매트릭스 연산의 단순함과 하드웨어 기능에 대한 직접적인 접근을 결합한 언어로, 파이썬 프로그래밍 환경 안에서 사용할 수 있다. 브라운 부사장은 “NKI는 2025년 1분기에 정식 출시되며 모든 뉴런 컴파일러와 코드 스택이 오픈소스로 공개된다”고 밝혔다.

    트레이니움은 파이토치 네이티브 지원도 시작한다. 기존에 엔비디아 GPU용으로 작성된 코드에서 ‘to(cuda)’를 ‘to(neuron)’로 한 줄만 변경하면 트레이니움에서 실행할 수 있다. 브라운 부사장은 “연구자, 학생, 모든 개발자가 새로운 소프트웨어 스택을 배울 필요 없이 트레이니움을 사용할 수 있게 됐다”고 강조했다.

    ◇ 한국 트웰브랩스 “하루 수백만 시간 비디오 처리”

    한국 AI 스타트업 트웰브랩스도 AWS 인프라 활용 사례로 소개됐다. 이재성 트웰브랩스 CEO는 기조연설 무대에서 자사의 비디오 AI 모델이 AWS S3 벡터 기능과 어떻게 결합되는지 시연했다. 트웰브랩스는 영상 이해 AI 모델인 ‘마렝고3’와 비디오 언어 모델 ‘페가수스’를 AWS에서 운영하며 하루 수백만 시간의 비디오를 처리하고 있다.

  • 이재성 트웰브랩스 CEO가 동영상 검색에 AWS 인프라를 사용한 사례를 소개하고 있다.
    ▲ 이재성 트웰브랩스 CEO가 동영상 검색에 AWS 인프라를 사용한 사례를 소개하고 있다.

    이재성 CEO는 “고객이 비디오를 전송하면 시스템이 자동으로 영상을 인덱싱하고 임베딩을 생성해 S3에 저장한다”며 “단일 1시간짜리 비디오가 수천 개의 벡터를 생성하고, 고객들이 수백만 시간의 비디오를 처리하면 수십억 개의 임베딩이 만들어진다”고 설명했다. 이어 “S3 벡터 덕분에 데이터 마이그레이션이나 인프라 재설계 없이 이 모든 걸 검색할 수 있게 됐다”고 덧붙였다.

    워싱턴포스트의 자회사인 아크XP는 트웰브랩스의 기술을 활용해 전 세계 뉴스 조직에 미디어 관리 플랫폼을 제공하고 있다. 편집팀은 방대한 영상 아카이브에서 관련 클립을 빠르게 찾아 맞춤형 스토리를 제작할 수 있다.

    AWS가 올해 정식 출시한 S3 벡터는 수십억 개의 벡터에 대해 100밀리초의 쿼리 시간을 달성했다. AWS는 ‘벡터 이웃’이라는 개념을 도입해 사전에 연관된 벡터들을 그룹으로 묶어두고, 검색 시 해당 그룹만 메모리에 로드하는 방식으로 성능을 확보했다. 출시 4개월 만에 25만 개 이상의 벡터 인덱스가 생성됐고, 40억 개 이상의 벡터가 추가됐으며, 100만 건 이상의 벡터 검색이 수행됐다.

    범용 워크로드를 위해 설계된 그래비톤5 기반 M9g 인스턴스는 현재 프리뷰로 제공된다. 컴퓨팅 집약적 워크로드를 위한 C9g 인스턴스와 메모리 집약적 워크로드용 R9g 인스턴스는 2026년 출시 예정이다. AWS에 따르면 3년 연속으로 AWS 인프라에 새로 추가된 CPU 용량의 절반 이상이 그래비톤으로 구동되고 있으며, 상위 1000개 EC2 고객의 98%가 이미 그래비톤을 사용하고 있다.

  • 미국 라스베이거스=김동원 기자

최신뉴스