[AWS 리인벤트 2025] “휴머노이드 상용화까지 5년”… 로봇 업계가 본 피지컬 AI 로드맵
로봇도 프롬프트로 지시… 마트 제품 이미 로봇이 다뤄
엔비디아 “물리 데이터는 텍스트의 수천배, AI 팩토리 필요”
“5년 후 일 정의 바뀐다”… 한일 고령화 시장서 먼저 확산
피지컬 AI가 현실로 다가오고 있다. 챗GPT에 프롬프트를 입력하듯 건설 장비에 말로 지시하고, 물류창고 로봇이 다룬 제품이 마트 진열대에 오르는 시대가 시작됐다.
베드록 로보틱스의 케빈 피터슨 최고기술책임자(CTO)는 1일(현지시각) 미국 라스베이거스에서 열린 AWS 리인벤트 2025 ‘피지컬 AI 트랜드 브리핑’ 세션에서 “건설 장비에게 ‘오늘은 정확도보다 속도가 중요해’라고 말하면, 기계가 알아서 작업 방식을 바꾼다”며 “마치 챗GPT에 프롬프트를 입력하듯이 작동한다”고 말했다. 자율주행 기술을 건설 장비에 적용하면서 LLM의 범용성과 자율주행의 안전성을 결합하고 있다는 설명이다.
이날 세션에는 건설 로봇 스타트업 ‘베드록 로보틱스’, 제조·물류 로봇 기업 ‘튜터 인텔리전스’, 한국 휴머노이드 개발사 ‘리얼월드’, ‘엔비디아’가 참여했다. 이들은 피지컬 AI가 실험실을 벗어나 현장에 투입되는 단계에 접어들었다고 진단했다.
◇ 실험실 아닌 현장… 마트 진열대에 오른 제품들
피지컬 AI는 현실 세계에서 작동하는 로봇에 AI를 결합한 기술이다. 2024년부터 본격적인 실전 배치가 시작됐다. 건설 현장, 물류창고, 제조 공장 등에서 이미 로봇들이 실제 작업을 처리하고 있다.
베드록의 장비는 건설 현장에서 매일 수십만 야드의 작업을 처리한다. 피터슨 CTO는 “미국 건설 현장엔 약 50만 명의 인력이 부족하다”며 “데이터센터, 전력 시설, 주택 건설 현장에 자율 장비를 투입하고 있다”고 말했다. 그는 구글 자율주행차 개발에 참여했고, 캐터필러의 무인 광산 트럭을 만든 경력이 있다.
물류 분야에서도 변화가 시작됐다. 튜터 인텔리전스는 이날 3400만 달러(약 500억원) 시리즈A 투자 유치를 발표했다. 조쉬 그루엔스타인 CEO는 중서부에서 100년 넘게 5~10개 창고를 운영하는 가족 기업 사례를 소개했다. 포춘 500대 식품 브랜드 제품을 유통하지만 컨베이어 벨트조차 없던 곳이었다. 그는 “우리 로봇을 투입한 뒤 처리량이 크게 늘었다”고 말했다.
그루엔스타인 CEO는 “아마존 같은 대기업은 로봇에 맞춰 창고를 설계하지만, 미국 제조업체의 99%는 중소기업”이라며 “이들은 기존 환경에 바로 투입할 수 있는 유연한 로봇이 필요하다”고 설명했다. 이어 “이미 마트 진열대에서 우리 로봇이 다룬 제품을 찾을 수 있다”며 “앞으로 몇 개에서 전체로 확대될 것”이라고 말했다.
휴머노이드 로봇 개발도 진행 중이다. 리얼월드는 사람 손처럼 정교한 5개 손가락 로봇을 개발하고 있다. 류중희 대표는 “일본과 한국 기업들이 휴머노이드 도입을 원하는 이유는 작업 공간이 이미 사람 기준으로 설계돼 있기 때문”이라며 “사람 손은 22개 관절로 구성돼 있고, 이를 제어하는 게 우리의 차별점”이라고 말했다.
◇ 텍스트의 수천배 데이터 “밀리초 안에 판단해야”
하지만 피지컬 AI는 챗GPT 같은 언어모델보다 복잡하다. 엔비디아의 아미트 고엘 로보틱스 총괄은 “물리 세계가 생성하는 데이터의 양은 텍스트보다 수천 배 이상 많다”고 말했다.
가장 큰 장벽은 데이터다. LLM은 인터넷의 텍스트를 학습하면 되지만, 로봇은 깊이·힘·소리 등 다양한 센서에서 나오는 데이터가 필요하다. 류 대표는 “LLM은 웹에서 텍스트를 긁어오면 되지만, 로봇 데이터는 표준도 없고 직접 수집해야 한다”고 말했다. 고엘 총괄은 “그래서 더 큰 모델 아키텍처가 필요하고, 데이터를 수집하고 학습시킬 AI 팩토리가 필요하다”고 덧붙였다.
실시간 반응도 문제다. 챗GPT는 답변에 10초 걸려도 괜찮지만, 로봇은 밀리초 단위로 판단해야 한다. 류 대표는 “사람 손의 22개 관절을 실시간으로 제어하려면 컴퓨팅 차원이 상체 전체의 3배”라며 “기존 VLA(Vision-Language-Action) 모델은 응답에 시간이 걸려서 한계가 있다”고 설명했다.
검증과 안전도 까다롭다. 고엘 총괄은 “디지털 AI는 틀린 답을 해도 되지만, 물리 세계에서는 안 된다”며 “이 때문에 시뮬레이션이 필수”라고 강조했다. 엔비디아는 옴니버스(Omniverse)라는 시뮬레이션 전용 컴퓨터를 개발해 로봇을 가상 환경에서 철저히 테스트한다. 고엘 총괄은 “실제 데이터가 부족한 경우, 시뮬레이션에서 데이터를 생성해 AI를 학습시킨다”고 말했다.
보안도 과제다. 한 청중이 “악의적 공격자가 피지컬 AI를 해킹하면 어떻게 되느냐”고 묻자, 피터슨 CTO는 “네트워크가 가장 큰 취약점”이라고 답했다. 그는 “자율주행차 개발에서 배운 게 있다”며 “안전 기능은 최대한 로봇 자체에 탑재해야 하고, 네트워크가 뚫려도 주변 사람을 다치게 할 수 없도록 설계한다”고 말했다.
◇ 엔비디아-AWS 협업, 3가지 컴퓨터로 만드는 인프라
엔비디아와 AWS는 피지컬 AI를 위한 인프라를 구축하고 있다. 고엘 총괄은 “피지컬 AI엔 세 종류의 컴퓨터가 필요하다”고 말했다.
우선 학습용 컴퓨터가 있다. 클라우드에서 대규모 AI 모델을 훈련시키는 ‘AI 팩토리’다. 고엘 총괄은 “물리 세계의 막대한 데이터를 처리하려면 전용 학습 인프라가 있어야 한다”고 설명했다.
다음은 시뮬레이션용 컴퓨터다. 엔비디아의 옴니버스가 대표적이다. 고엘 총괄은 “로봇을 가상 환경에서 검증하고, 실제로는 구하기 어려운 데이터를 생성한다”며 “예를 들어 위험한 상황을 수천 번 시뮬레이션해서 AI를 학습시킬 수 있다”고 말했다.
마지막은 실행용 엣지 컴퓨터다. 로봇에 직접 탑재되는 젯슨 같은 칩이다. 고엘 총괄은 “실시간으로 세계를 이해하고 판단하려면 엣지에 충분한 컴퓨팅 파워가 있어야 한다”고 설명했다.
고엘 총괄은 “하이브리드 아키텍처를 구축하고 있다”고 덧붙였다. 밀리초 안에 판단해야 하는 건 엣지에서 처리하고, 몇 초 걸려도 되는 복잡한 추론은 클라우드의 큰 모델이 담당한다는 것이다. 그는 “세계 수준의 지능을 클라우드에서 활용하는 것”이라고 설명했다.
AWS와 엔비디아는 이 세 가지 컴퓨터를 연결하는 레퍼런스 아키텍처와 오케스트레이션 레이어를 개발 중이다. 고엘 총괄은 “새로운 데이터가 들어오면 모델을 학습시키고, 시뮬레이션으로 테스트한 뒤, 엣지에 배포하는 ‘데이터 플라이휠’을 만들고 있다”고 말했다.
모델 최적화와 양자화 기술도 발전하고 있다. 고엘 총괄은 “큰 모델을 엣지에서 실시간으로 돌릴 수 있도록 압축하는 기술이 이미 증명됐다”고 설명했다.
◇ “5년 후 일의 정의 바뀐다”… 피지컬 AI 점진적 확산 전망
그렇다면 피지컬 AI는 언제 대중화될까. 패널들은 단계적 확산을 예상했다.
피터슨 CTO는 “1~2년 안에 공장이나 창고 같은 통제된 환경에서 실용화될 것”이라며 “우리는 이미 그 단계를 지나고 있다”고 말했다. 그루엔스타인 CEO도 “중소 제조업체와 물류 기업들이 본격적으로 도입하기 시작했다”고 했다.
휴머노이드 로봇은 3~5년 후 본격화될 전망이다. 류 대표는 “한국과 일본 같은 고령화 국가에서 먼저 확산될 것”이라며 “이들 나라는 추가 노동력 없이는 생존이 어렵다”고 말했다.
병원이나 상점에서 보조 역할을 하는 로봇은 곧 볼 수 있다. 고엘 총괄은 “청소 로봇 매틱(Matic)처럼 지능이 더해진 로봇들이 나오고 있다”며 “허깅페이스의 상호작용 로봇처럼 사람과 자연스럽게 소통하는 제품도 등장할 것”이라고 말했다.
반면 가정용 로봇은 아직 멀었다는 전망이다. 그루엔스타인 CEO는 “공장은 정해진 작업을 반복하지만, 집에서 강아지 밥 주기와 설거지는 완전히 다른 작업”이라며 “범용 지능이 필요한데, 그게 가장 어렵다”고 설명했다. 다만 “가정 환경에 로봇을 투입해 데이터를 모으는 것 자체가 범용 지능 개발에 도움이 된다”고 덧붙였다.
이들은 피지컬 AI가 대중화되기 위해선 하드웨어와 AI 결합이 필요하다고 밝혔다. 고엘 총괄은 “저렴한 하드웨어와 자연어로 지시할 수 있는 AI가 결합되는 순간 로봇도 챗GPT처럼 대중화될 것”이라며 “일반인이 로봇에게 말로 작업을 지시하면 바로 실행되는 그 순간이 전환점”이라고 말했다.
또 그는 “모든 재료는 이미 준비됐다”고 강조했다. 트랜스포머 모델이 물리 데이터에도 작동한다는 게 증명됐고, 스케일링 효과도 확인됐다고 밝혔다. “데이터 수집 방법도 확립됐고, 엣지 최적화 기술도 완성됐다”며 “지금은 이 재료들을 어떻게 조합할지 레시피를 개발하는 단계”라고 말했다.
피터슨 CTO는 “스마트폰처럼 피지컬 AI가 하룻밤에 퍼지진 않을 것”이라면서도 “5년 후 돌아보면 많은 일이 로봇과의 협업으로 바뀌어 있을 것”이라고 말했다.
류 대표는 “3~5년 안에 두 가지 접근법이 통합될 것”이라고 전망했다. 하나는 시뮬레이션으로 현실을 완벽히 재현하는 방법이고, 다른 하나는 현실에서 직접 데이터를 모으는 방법이다. 그는 “이 둘이 합쳐지면 진정한 범용 지능이 가능해진다”며 “5년 후엔 휴머노이드 대중화로 일의 정의 자체가 바뀔 것”이라고 강조했다.