엔비디아, 슈퍼컴퓨팅 데이터센터의 다운타임 최소화하는 AI 플랫폼 발표
보안 위협 탐지, 네트워크 장애 예측, 유지보수 지원
엔비디아(CEO 젠슨 황)가 '엔비디아 멜라녹스 UFM 사이버-AI' 플랫폼을 공개했다. 이 플랫폼은 인공지능(AI) 기반 애널리틱스를 활용해 보안 위협과 운영 문제를 탐지하고, 네트워크 장애를 예측함으로써 인피니밴드(InfiniBand) 데이터센터의 다운타임을 최소화하는 것이 특징이다.
UFM 사이버-AI 플랫폼은 약 10 여년 간 인피니밴드 시스템을 관리해온 UFM 플랫폼 제품 포트폴리오가 확대된 것으로, AI를 적용해 데이터센터의 운영상태와 네트워크 워크로드 패턴을 학습함으로써 실시간 데이터는 물론 과거의 텔레메트리(telemetry) 및 워크로드 데이터까지 모두 활용하며, 이에 따라 시스템 상태와 네트워크 수정을 추적하고, 성능저하, 사용, 프로파일 변경을 감지한다.
UFM 사이버-AI 플랫폼은 비정상적 시스템, 애플리케이션 동작, 잠재적 시스템 장애 및 위협에 대한 경고를 제공할 뿐 아니라, 시정 조치를 수행한다. 또한, 가상화폐 마이닝과 같이 잘못되거나 원하지 않은 애플리케이션을 호스팅하기 위해 시스템 해킹 시도가 있는 경우 보안 경고를 제공하도록 설계됐다. 이는 결과적으로 데이터센터의 다운타임을 감소시킨다. ITIC의 연구에 따르면, 다운타임 발생 시 일반적으로 시간 당 30만 달러 이상의 비용이 발생한다.
엔비디아의 멜라녹스 네트워킹 부문 마케팅 담당 수석 부사장 길라드 샤이너(Gilad Shainer)는 "UFM 사이버-AI 플랫폼은 데이터센터 고유의 운영상태를 파악해 성능 저하, 구성요소 장애, 비정상적인 사용 패턴을 식별한다. 이 플랫폼을 통해 시스템 관리자들은 잠재적인 보안 위협을 신속히 탐지 및 대응하고 잠재적인 오류를 해결함으로써, 비용은 줄이면서 고객들에게 일관된 서비스를 보장할 수 있다"고 설명했다.
한편, 오랜 기간 엔비디아 데이터센터에 UFM 플랫폼을 적용해 활용하고 있는 많은 기업들이 UFM 사이버-AI 플랫폼에 대한 지지를 표하고 있다.
호주 국가 컴퓨팅 인프라(National Computational Infrastructure, NCI)의 부소장 앨런 윌리엄스(Allan Williams)는 "NCI는 국가 연구 환경에 핵심 역할을 하고 있다. 5천여 명의 연구원들이 NCI의 슈퍼컴퓨팅 인프라를 활용해 중요한 국가 및 글로벌 활동을 수행하고 있다. UFM은 슈퍼컴퓨터를 효율적으로 관리하고 성능을 최적화할 수 있도록 한다. UFM 사이버-AI 플랫폼의 새로운 기능을 통해 슈퍼컴퓨팅의 활용도를 더욱 향상시키고 투자수익률(ROI)을 개선할 수 있기를 기대한다"고 전했다.
아울러, 오하이오 슈퍼컴퓨터 센터(Ohio Supercomputer Center) 부소장 더글라스 존슨(Douglas Johnson)은 "지난 수년간 인피니밴드 데이터센터에서 UFM 플랫폼을 사용해왔다. UFM과 멜라녹스 네트워킹 팀이 가진 전문성은 우리 센터의 네트워크를 관리하고 안정성을 유지하는데 핵심적인 요소였다. UFM 사이버-AI 플랫폼은 보다 다양한 혜택을 제공할 것으로 기대된다"고 말했다.