테크

KAIST-삼성전자, 대형 AI 모델 학습 비용 낮춘 시뮬레이션 개발

기사입력 2025.03.13 18:26
  • 다양한 병렬화 기법에 따른 MT-NLG 학습 시간 및 GPU 사용률 변화. /KAIST
    ▲ 다양한 병렬화 기법에 따른 MT-NLG 학습 시간 및 GPU 사용률 변화. /KAIST

    KAIST(한국과학기술원)와 삼성전자가 챗GPT, 딥시크(DeepSeek) 등 초거대 인공지능(AI) 모델의 학습 비용을 획기적으로 줄일 수 있는 시뮬레이션 기술을 개발했다. 이 기술은 대규모 분산 시스템에서 그래픽처리장치(GPU) 활용 효율을 높이고 최적의 학습 전략을 찾는 데 초점을 맞췄다.

    유민수 KAIST 전기및전자공학부  교수 연구팀은 삼성전자 삼성종합기술원과 공동으로 대형 언어 모델(LLM)의 학습 시간을 예측하고 최적화하는 시뮬레이션 프레임워크 ‘vTrain’을 개발했다고 13일 밝혔다. 이 프레임워크는 방대한 병렬화 전략을 빠르게 탐색해 비용과 시간을 절감할 수 있는 방안을 제시한다.

    최근 챗GPT-4 같은 대형 언어 모델은 수만 개의 고성능 GPU를 활용해 학습돼 챗GPT-4의 경우 학습 비용만 약 1400억 원에 달하는 것으로 알려졌다. 하지만 기존에는 경험에 의존한 소수의 학습 전략만 사용돼 GPU 활용의 비효율성과 불필요한 비용 증가가 문제로 지적돼 왔다. 특히 대규모 시스템을 위한 시뮬레이션 기술 부족으로 기업들이 최적화에 어려움을 겪고 있었다.

    KAIST 연구팀이 개발한 vTrain은 이러한 문제를 해결할 수 있다. 실제 다중 GPU 환경에서 측정한 학습 시간과 vTrain의 예측값을 비교한 결과 단일 노드에서는 평균 절대 오차(MAPE) 8.37%, 다중 노드에서는 14.73%의 높은 정확도를 보였다. 이를 통해 다양한 분산 병렬화 전략을 신속히 평가하고 최적의 구성을 도출할 수 있다.

    연구팀은 vTrain 프레임워크와 1500개 이상의 실제 학습 시간 데이터를 오픈소스로 깃허브에 공개했다. 이를 통해 AI 연구자와 기업들이 자유롭게 활용할 수 있도록 지원한다.

    유민수 KAIST 교수는 “vTrain은 프로파일링 기반 시뮬레이션으로 GPU 사용률을 높이고 학습 비용을 줄이는 전략을 제시한다”며 “오픈소스 공개를 통해 초거대 AI 모델 학습의 효율성을 크게 개선할 수 있을 것”이라고 밝혔다.

    이번 연구는 방제현 박사과정이 제1저자로 참여했다. 지난 11월 미국 전기전자공학회(IEEE)와 전산공학회(ACM)가 공동 주최하는 마이크로아키텍처 국제 학술대회(MICRO)에서 발표됐다. 연구는 한국연구재단, 정보통신기획평가원, 삼성전자의 지원으로 수행됐다.

최신뉴스