강민재 테크 스페셜리스트 발표
TPU로 락인·수급 리스크 해결 방안 제시
-
“그래픽처리장치(GPU) 확보 문제만이 아닌 네트워크·스토리지 등 하드웨어와 소프트웨어가 유기적으로 통합된 시스템 설계의 문제로 접근해야 합니다”
강민재 구글 클라우드 AI 인프라 총괄 테크 스페셜리스트가 3일 열린 ‘The AI Show 2025(TAS 2025)’ 제조 AI 컨퍼런스에서 생성형 AI 시대의 인프라 전략을 이같이 강조했다.
강 스페셜리스트는 “AI 인프라는 너무 비싸고 제때 구하기도 힘들고 운영하기도 어렵다는 세 가지 핵심 과제가 있다”며 “이는 비용 효율성, 자원 확보 및 유연성, 성능 및 운영 복잡성 문제로 정리할 수 있다”고 설명했다. 이어 “GPU에 대한 수요 과잉으로 공급난이 있어 원하는 시점에 사업이나 서비스를 론칭하지 못하는 리스크가 발생한다”고 지적했다.
그는 AI 인프라의 실질적 병목도 설명했다. “똑같은 B200 GPU라도 주변 환경에 따라 성능이 천차만별”이라며 “GPU나 TPU 같은 칩들은 이미 성능이 상향 평준화돼 충분히 빠르지만, 네트워크나 스토리지는 상대적으로 성능이 떨어져 전체 시스템의 병목이 된다”고 설명했다.
강 스페셜리스트는 하마를 비유로 들었다. 하마의 소화기관은 많은 양의 음식을 소화할 수 있지만 컵과 빨대로 음식을 섭취하면 소화 능력을 다 쓸 수 없다. GPU나 TPU의 연산 능력도 마찬가지로 네트워크나 스토리지가 병목이 되면 칩의 연산 능력을 다 활용할 수 없다는 얘기다.
이에 구글 클라우드가 제시한 핵심 솔루션은 ‘AI 하이퍼컴퓨터(AI Hypercomputer)’다. 그는 “AI 하이퍼컴퓨터는 성능 최적화 하드웨어, 오픈소스 소프트웨어 생태계, 유연한 자원 활용을 통합한 개념”이라며 “단순히 하드웨어만이 아니라 그 위에서 돌아가는 소프트웨어가 유기적으로 설계돼야 생산성을 극대화할 수 있다”고 설명했다.
아울러 GPU 락인과 수급 리스크를 해결하기 위한 방안으로 TPU 활용을 제안했다. 강 스페셜리스트는 “TPU는 학습이나 추론에 제약 없이 모두 사용 가능하면서 GPU보다 비용은 저렴하다”며 “제미나이 학습과 추론은 100% TPU로 이뤄지고 있다”고 밝혔다. 구글은 2015년 TPU V1을 시작으로 10년 가까이 시행착오와 개선을 거치며, 현재는 유튜브, 구글 검색 등 주요 서비스를 100% TPU로 운영하고 있다.
나아가 강 스페셜리스트는 GPU와 TPU의 완벽한 양방향 호환성을 강조했다. 그는 “GPU에서 학습한 모델은 TPU에서 추론할 수 있고, 반대로 TPU에서 학습한 모델을 GPU에서 추하는 것도 가능하다”며 “둘을 함께 사용하면 비용 최적화와 리소스 수급 문제를 효과적으로 해결할 수 있다”고 설명했다.
대규모 클러스터 운영의 기술적 도전에 대해서도 구체적인 해결책을 제시했다. 강민재 스페셜리스트는 “수만 장, 수십만 장의 GPU를 단일 클러스터로 제어하는 것은 이전에 없던 기술적 문제를 야기한다”며 “구글 클라우드도 이를 위해 AI 특화 고성능 네트워크와 스토리지를 갖추고, 클러스터 디렉터라는 전용 관제 센터를 기본 제공해 운영 난이도를 크게 낮췄다”고 했다.
구글클라우드는 조만간 최신 7세대 TPU인 Ironwood(아이언우드)를 출시할 예정이다. 강 스페셜리스트는 “AI 인프라는 단순한 하드웨어의 집합이 아니라, 발전 속도가 빠르고 복잡성이 계속 올라가며 인프라 영역에서 엔지니어링 영역으로 바뀌어 가고 있는 노하우가 많이 요구되는 영역”이라고 강조했다.
- 구아현 기자 ainews@chosun.com