[AWS 리인벤트 2025] “AI가 AI 모델 훈련”... 강화학습 문턱 낮추다
AWS, 강화학습 자동화 서비스 공개
박사급 작업, 일반 개발자도 며칠 만에
세이지메이커 AI에 ‘에이전틱 방식’ 기능 추가
박사급 인공지능(AI) 시대가 도래했다. 박사급 전문가만 다룰 수 있던 AI 모델 훈련을 이제 일반 개발자가 할 수 있게 됐다. 6개월 걸리던 작업이 며칠이면 끝난다.
아마존웹서비스(AWS)는 3일(현지시각) 미국 라스베이거스에서 열린 ‘AWS 리인벤트 2025’에서 아마존 베드록의 RFT(Reinforcement Fine Tuning·강화 파인튜닝)와 아마존 세이지메이커 AI의 서버리스 모델 맞춤화 기능을 발표했다. 강화학습이란 고급 AI 훈련 기법을 누구나 쉽게 쓸 수 있도록 만든 것이 핵심이다.
스와미 시바수브라마니안(Swami Sivasubramanian) AWS 에이전틱 AI 담당 부사장은 이날 기조연설에서 “강화학습은 강력하지만 구현이 어려웠다”며 “박사급 전문 지식, 복잡한 인프라, 성공 보장도 없이 6~12개월짜리 프로젝트를 진행해야 했다”고 말했다.
◇ 베드록 RFT, 평균 66% 정확도 향상
강화학습은 AI 모델이 시행착오를 통해 학습하는 방식이다. 좋은 행동에는 보상을, 나쁜 행동에는 페널티를 주면서 모델을 개선한다. 시바수브라마니안 부사장은 “강화학습은 정답뿐 아니라 좋은 과정에도 보상을 주기 때문에 추론과 복잡한 워크플로우에 특히 효과적”이라고 설명했다.
문제는 실행이 너무 어렵다는 점이었다. 복잡한 훈련 파이프라인과 막대한 컴퓨팅 자원, 모든 응답을 평가하기 위한 고비용의 인간 피드백 또는 강력한 AI 모델이 필요했다.
아마존 베드록의 RFT는 이 과정을 극적으로 단순화했다. 개발자는 기반 모델을 선택한 뒤 호출 로그를 지정하거나 데이터셋을 업로드하고, AI 기반·규칙 기반·템플릿 중 보상 함수를 선택하기만 하면 된다. 이후에는 베드록의 자동화된 워크플로우가 전체 파인튜닝 과정을 처리한다.
시바수브라마니안 부사장은 “베드록이 강화학습의 모든 복잡성을 처리한다”며 “맞춤화와 사용 편의성의 적절한 균형을 맞춰 대부분의 사용 사례에 적합하고, 기본 모델 대비 평균 66% 정확도 향상을 제공한다”고 밝혔다. RFT는 출시 시점에 아마존 노바 2 라이트(Amazon Nova 2 Lite) 모델을 지원하며, 향후 더 많은 모델이 추가될 예정이다.
세일즈포스는 베드록 RFT를 활용해 최대 73%의 정확도 향상을 확인했다. 필 무이(Phil Mui) 세일즈포스 에이전트포스 소프트웨어 엔지니어링 수석 부사장은 “세일즈포스의 특정 비즈니스 요구사항에서 기본 모델 대비 최대 73%의 정확도 향상을 입증했다”며 “지도 파인튜닝으로 이미 달성한 성과를 RFT를 활용해 더욱 강화하고 확장할 수 있을 것”이라고 말했다.
◇ 세이지메이커 AI “에이전트가 알아서 훈련”
AWS는 더 높은 수준의 제어가 필요한 팀을 위해 아마존 세이지메이커 AI의 서버리스 모델 맞춤화 기능을 제공한다. 이 서비스는 두 가지 방식을 제공한다. 그중 하나가 ‘에이전틱(agentic) 방식’이다.
에이전틱 방식에서는 개발자가 자연어로 요구사항을 설명하면 AI 에이전트가 합성 데이터 생성부터 평가까지 전체 맞춤화 과정을 안내한다. 시바수브라마니안 부사장은 “사용 사례를 자연어로 설명하면 AI 에이전트가 전체 맞춤화 파이프라인을 안내한다”며 “시나리오를 분석해 적절한 파인튜닝 기법을 추천하고, 필요하면 합성 데이터셋을 생성하며, 수동 개입 없이 서버리스 인프라를 설정해 모델을 훈련한다”고 설명했다. 이어 “과거 수개월의 시행착오가 필요했던 작업이 이제 며칠 만에 일어난다”며 “모범 사례를 아는 에이전트가 안내하고 무거운 작업을 처리한다”고 강조했다.
더 세밀한 제어를 원하는 개발자를 위해서는 ‘셀프 가이드(self-guided) 방식’도 제공된다. 이 방식은 인프라 관리 부담을 없애면서도 원하는 맞춤화 기법을 선택하고 파라미터를 조정할 수 있다. 두 방식 모두 AI 피드백 기반 강화학습, 검증 가능한 보상 기반 강화학습, 지도 파인튜닝, 직접 선호 최적화 등의 고급 기법을 지원한다.
세이지메이커 AI는 아마존 노바는 물론 라마, 큐웬, 딥시크, GPT-OSS 등 대중적으로 사용되는 공개 가중치(open weight) 모델과도 연동된다.
소미야딥 박시(Soumyadeep Bakshi) 콜리니어 AI 공동창립자는 “과거에는 학습, 평가, 배포를 위해 여러 시스템을 연결해야 했다”며 “세이지메이커 AI의 서버리스 모델 맞춤화 기능을 통해 실험 주기를 수주에서 수일로 단축했다”고 말했다. 이어 “인프라 관리나 여러 플랫폼을 오가는 데 시간을 낭비하지 않고 고객을 위해 더 나은 학습 데이터와 시뮬레이션 구축에 집중할 수 있게 됐다”고 덧붙였다.
시바수브라마니안 부사장은 “이제 모델 맞춤화의 질문은 ‘해야 하는가’가 아니라 ‘얼마나 빨리 시작할 수 있는가’”라며 “베드록과 세이지메이커 AI를 통해 모든 규모의 조직이 대규모로 효율적인 AI 에이전트를 구축할 수 있는 도구를 제공한다”고 강조했다.