-
패브릭기반 멀티모달 데이터 플랫폼 전문기업 미소정보기술(대표이사 안동욱)이 의료 및 산업 분야 대규모언어모델(LLM) AI 구축과 소규모언어모델(sLLM) AI 구축 시 양질의 빅데이터 확보에 꼭 필요한 비(非)라벨링 데이터 표준화 솔루션 ‘데이터스캔(Data Scan)’을 출시한다고 15일 밝혔다.
-
‘데이터스캔’은 의료 및 산업 분야에서 사람의 손으로 가공된 라벨링 데이터(지도학습)가 아닌 챗GPT 등 초거대 AI 개발에 필수인 양질의 빅데이터를 확보할 수 있는 비라벨링 데이터 표준화 솔루션이다.
초거대 AI 사전학습에 필요한 빅데이터 구축(텍스트)을 위해 데이터 등록부터 분류체계, 단어사전 구축 통한 자연어 처리 및 분류분석, 텍스트 분석, 산업별 적용 도메인에 따른 데이터 후처리 등을 실시간 분석하며, 기업·공공기관의 내부 문서 보안이 강화된 패브릭 기반 멀티모달 데이터 플랫폼 ‘스마트빅(smart BIG)’을 통해 LLM, sLLM 구축 시 고도화된 언어처리 기술을 원스톱으로 제공한다.
사측은 현재 초거대 AI에 필요한 ‘비라벨링(텍스트) 데이터’는 의료 및 산업 분야에 매우 부족한 실정이며, 단순·반복 작업 중심이었던 라벨링 데이터 중심의 AI 학습용 데이터로는 모델이 스스로 예측하며 학습하는 방식의 ‘챗GPT’ 같은 초거대 AI를 지원하기 어렵다고 설명했다.
이어 해당 솔루션은 의료 분야에서 의료영상 판독을 통한 건강검진·진료 소견서 작성, 과거 진료기록 요약, 치료 방법·처방전, 개인 건강관리, 반려동물 질병 상담 등에 활용될 수 있으며, 금융 분야에서는 고객상담, 금융상품 추천, 신용평가, 금융사고 감지 등에, 법률 분야에서는 계약서, 소장, 법조문 제시, 판결문(법원) 등의 서류 작성 시간을 획기적으로 줄이고, 유사 판례를 쉽게 찾아주는 서비스 등에 활용되어 업무 효율성과 편의성을 높일 수 있다고 전했다.
미소정보기술 안동욱 대표이사는 “생성형 AI 시대를 맞아 양질의 데이터는 AI 경쟁력의 핵심”이라며, “의료, 산업 데이터분석 및 멀티모달 데이터 플랫폼으로 똘똘한 데이터를 제공해 초거대 AI 기업들의 경쟁력을 지원하는 데이터 인에이블러(Data Enabler)역할을 담당할 것”이라고 말했다.
한편, 미소정보기술은 주력 사업인 디지털 헬스케어 분야의 의료 데이터부터 산업 데이터까지 데이터 구분 없이 분석 가능한 전문 도메인 날리지와 패브릭 기반 멀티모달 데이터 플랫폼 ‘스마트빅’을 통해 기업 및 공공기관에 한국형 챗GPT, LLM, Sllm등 생성형 AI 서비스 품질을 높일 수 있도록 고도화에 집중적으로 투자하고 있다.
- 김정아 기자 jungya@chosun.com