트랜스포머 기반 소프트웨어 생태계 구축 충분
-
네이버클라우드와 삼성전자가 공동 개발을 하고 있는 인공지능(AI) 반도체(가칭)가 공개되면서 엔비디아 AI 반도체 독점 시장에서 어떤 경쟁력을 갖출지 주목된다.
두 기업은 최근 19일 서울 서초구 더케이호텔에서 개최한 AI 반도체 최고위 전략대화 행사장 전시 부스에서 공동 개발 중이 AI 반도체 데모 시연을 진행했다. 프로그래머블반도체(FPGA) 형태의 AI 반도체 시연으로 공개됐다. FPGA는 개발자가 설계를 변경할 수 있어 시제품 제작에 주로 활용된다. AI 반도체 시장의 선두 제품과 비교해 AI 연산에서 8배 이상의 전력 효율을 낸다는 게 장점이다.
네이버클라우드와 삼성전자는 지난해 12월 업무협약 이후 AI 반도체를 약 1년간 공동개발 해왔다. 4배 이상 압축된 초거대 모델을 저전력 하드웨어에서 구현한 것이 특징이다. 기존 컴퓨팅 시스템에서는 초거대 모델을 압축하면 속도가 느려지는 데 이 AI 반도체는 연산이 4배 빨라지는 결과를 검증했다는 게 네이버클라우드 측의 설명이다.
모바일 기기에서 많이 쓰이는 저전력·소형 D램인 저전력더블데이터레이트(LPDDR)을 탑재해 효율을 높였다. 전력 효율이 높으면 적은 전력으로도 동일한 연산의 능력을 낼 수 있어 대규모 연산 작업에서 비용을 절감할 수 있는 효과를 가진다. 이 새로운 AI 반도체는 초거대언어모델(LLM) ‘추론’에 특화돼 있다. AI 모델이 학습 후 새로운 데이터를 확보해 논리적 결과물을 내놓는 식이다.
네이버클라우드는 출시를 하게 될 경우 먼저 네이버클라우드에 탑재해 각종 팀네이버 AI 서비스를 구동, 성능 검증과 안정화 과정을 거칠 예정이다.
시연회에서 프로토타입으로 공개된 AI 반도체의 경우 초거대언어모델(LLM) 추론을 위한 FPGA 기반 제품으로 시연됐다. FPGA는 프로그램이 가능한 비메모리 반도체로 전력 효율에 강점이 있지만, 비용이 비싸고 용어가 달라 사용하기 어렵다는 단점이 있다. 또 AI 반도체의 경우 성능이 같아도 구현하는 소프트웨어(SW) 환경이 다르면 호환 문제도 발생한다.
이 문제와 더불어 네이버클라우드와 삼성이 엔비디아에 대항해 출시 전까지 AI 반도체 성능을 얼마나 끌어올리고 AI 반도체 호환을 위한 소프트웨어 생태계를 어떻게 확장해 나갈지 네이버클라우드 관계자와의 인터뷰를 통해 자세히 알아봤다.
- 반도체 벤치마킹 MLPerf 평가는 아직 진행 안 한 걸로 알고 있다. 내부에서 어느 정도로 나올 것이라고 기대하고 있나.
“MLperf의 경우, LLM 서비스와 매치가 되지 않는 구성이 많아 AI 서비스하는 사람들은 참조를 많이 하지 않는 자료인 점을 우선 말씀드린다. 그래도 기본적인 계산 능력을 비유하자면, 올해 세계 최고 권위 머신러닝 학회 ‘표현 학습 국제 학회 2023(International Conference on Learning Representation, 이하 ICLR 2023)에서 네이버클라우드는 서울대와 협력 연구한 논문(Winning both the accuracy of floating point activation and the simplicity of integer arithmetic)을 통해 같은 전력을 사용했을 경우 기존 대비 8~10배 성능을 보일 수 있음을 밝혔다. 이후 내부에서 경량화 알고리즘을 점차 고도화시켜 결과적으로 기존 반도체 성능 대비 10배 이상의 기본 계산 성능 향상을 관찰했다. 이렇게 관찰한 기본 계산 능력이 실제 LLM 서비스에서 10배까지 동일하게 도달하는 것은 아니지만 기존 반도체보다 현격한 수준으로 계산 능력을 향상 시켰다고 볼 수 있다.
MLperf는 LLM 서비스와 매치 되지 않아 이 수치를 강조해 내세울 계획은 현재로 없다.중요한 것은 LLM 서비스를 실제 구동했을 때의 전체 성능이라고 생각한다. 네이버클라우드와 삼성전자가 공동 개발 중인 AI 반도체 솔루션은 같은 성능이라면 LLM 서비스 수준에서 전력을 1/8로 낮출 수 있음을 검증했다”
-
-AI 반도체의 경우 성능이 엔비디아와 같은 수준이라고 해도 엔비디아 기반으로 SW환경이 조성돼 있기 때문에 호환 문제가 발생할 수 있다. 이에 대해 어떻게 대응하고 있는가.
“쿠다 생태계는 구글이 개발한 데이터 병렬 처리 알고리즘인 트랜스포머(transformer)가 본격적으로 쓰이기 전인 2017년도 이전에 다양하고 특이한 AI 모델들이 존재했기 때문에 중요했다. 하지만 GPT 모델을 필두로 최근 초거대 모델은 트랜스포머에 기반으로 하고 있다. 선두 AI 반도체 회사들도 이러한 경향에 따라 프로그래밍 능력보다는 최적화에 초점을 두고 있다.
네이버클라우드와 삼성전자가 공동 개발 중인 AI 반도체 솔루션 역시 이러한 트랜스포머 모델 기반 서비스에 특화돼 있다. 이 모델들은 공동 개발중인 칩에 탑재하기 위해 하루 이틀이면 충분할 정도로 트랜스포머의 각종 기능들을 이미 소프트웨어적으로 준비해놨다. 소프트웨어 생태계에 대해 상당 수준 준비가 돼 있다고 볼 수 있다.”
-엔비디아 AI 반도체와 비교했을 때 삼성과 네이버가 이번에 공개한 AI 반도체의 성능은 H100, A100, 그 이하 중 어느 정도 수준인가.
“실제 서비스를 구동했을 때의 전체 성능을 중요하게 생각하고 있다. 이 때문에 특정 제품과의 비교는 이러한 ‘전체 성능’을 정확하게 설명하지 못할 수 있다. 이 부분은 향후 실제 이용 고객이 판단할 수 있을 것이다. 다만 일반적인 수준에서 현존하는 가장 좋은 AI 서비스 반도체 대비 동일 성능일 때 1/8 수준의 전력만 소비하며, 기존 반도체들보다 하나의 칩으로 훨씬 더 큰 모델을 구동할 수 있다는 점이 가장 큰 특징이다.”
-엔비디아는 AI 반도체 관련 소프트웨어 등을 공급하고 있는데 네이버는 SW 공급 계획이 있나.
“네이버는 이미 AI 관련된 각종 SW를 매우 두텁게 구축해 왔고 엔비디아를 비롯한 많은 AI 반도체 기업들과 SW 생태계를 같이 만들어오기도 했다. 이러한 장점을 살려 공동 개발에 필요한 SW 상당 부분도 네이버가 제공할 예정이다.”
-초거대언어모델(LLM) 추론을 위한 FPGA 기반 제품으로 알고 있다. FPGA용은 가격이 비싸고 용어가 달라서 사용하기 어렵다는 단점이 있는데 이를 극복할 방안은 무엇인가.
“FPGA는 칩을 제작하기 전 동작과 성능검증을 위한 데모 시현일 뿐, 실제 제품은 주문형반도체(ASIC)라는 전용 반도체로 제공한다. FPGA로 제품을 공급할 계획은 앞으로도 없다.”
- 출시 예정 시기는.
“양사가 협의 중인 내용이다. 향후 여러 프로세스가 남아 있다. 구체적인 공개는 어렵지만 가능한 빠른 출시를 위해 노력하고 있다. 출시하게 될 경우 먼저 네이버클라우드에 탑재해 각종 팀네이버 AI 서비스를 구동해 보고 성능 검증과 안정화 과정을 거칠 예정이다.”
- 구아현 기자 ainews@chosun.com