미디어젠 컨소시엄, 초거대 AI 위한 데이터 구축 사업 수주
NIA가 운영하는 AI-Hub 통해 데이터 일반에 공개 예정
미디어젠 컨소시엄이 ‘초거대 AI 모델(LLM)’을 위한 AI 데이터 구축 사업을 수주했다고 29일 밝혔다.
미디어젠 컨소시엄은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘2023년도 인공지능 학습용 데이터 구축 사업’의 초거대 AI 모델을 위한 AI 학습용 데이터 구축 사업자로 최종 선정됐다. 헬스케어 분야에 대해 약 2억 어절 이상의 초거대 규모 생성형 AI 챗봇의 질의응답 데이터를 구축한다. 본 사업은 AI 최신 기술인 초거대 AI 언어모델 및 응용서비스 개발에 필수적인 대량의 말뭉치 데이터를 구축하는 것으로, 실제 일반인 및 의료진의 질의응답 데이터, 전문 의료 서적 데이터, 증강 데이터 등으로 구성된다.
미디어젠 컨소시엄은 미디어젠, 메트릭스, 비디, 위뉴, 메인 등 5개 전문 기업으로 구성됐다. 주관기관인 미디어젠은 초거대 AI 모델을 개발하고, AI 학습용 데이터 구축의 설계 및 품질 관리 전반을 관장한다. 크라우드 워커 전문 플랫폼 운용사인 메트릭스와 AI 소프트웨어 플랫폼 전문 기업인 비디는 다년간 AI 학습용 데이터 구축 사업에 참여해 AI 데이터 구축 프로세스에 따른 양질의 데이터를 구축한 경험을 보유하고 있다.
참여기관 중 의료 전문 기업인 위뉴와 메인은 최근 생성형 AI 모델의 최대 약점이라고 불리는 데이터 환각(할루시네이션) 효과를 최소화하기 위한 실제 의료진 데이터의 수집 및 검수 역할을 담당한다. 초거대 AI 모델의 유용성을 높이는데 기여할 예정이다. 위뉴는 국립암센터, 네이버 하이퍼클로바X, 일산 백병원 등과 질의응답형 헬스케어 전문 지식 서비스 협약을 맺고 있으며, 메인은 원주 세브란스병원 등과 진단 정보 및 의료 데이터 정제 서비스를 진행하고 있다.
이번 데이터 구축 사업에서 초거대 AI 훈련용 데이터가 구축되면 생성형 AI 모델 기반 챗봇을 통해 손쉽게 헬스케어 분야에 대한 지식 정보를 얻을 수 있을 것으로 예상된다. 의료진이 직접 작성한 데이터를 활용해 질의응답의 내용적 불확실성을 최소화할 것으로 전망된다.
사업을 총괄하고 있는 미디어젠의 송민규 상무는 “생성형 AI 챗봇에 대한 일반의 기대가 매우 큰 상황에서 초거대 AI 모델을 위한 대규모 데이터 구축 사업자로 선정된 것에 대해 매우 기쁘게 생각한다”며 “실생활에 밀접한 도움을 줄 수 있는 헬스케어 분야에서 AI 데이터의 환각 현상을 최소화하기 위한 노력을 아끼지 않을 예정”이라고 밝혔다.
초거대 AI 모델 학습을 위한 헬스케어 질의응답 데이터 구축은 올해 연말까지 진행된다. 구축이 완료된 후에는 한국지능정보사회진흥원(NIA)에서 운영하는 ‘AI-Hub’를 통해 모든 데이터를 일반에 공개할 예정이다.