포티투마루·바이브컴퍼니·스켈터랩스·올거나이즈
기계독해와 자연어 기술로 실질적으로 사용할 수 있는 전문가용 AI 선봬

챗GPT 등장 이후 대화형 AI에 관한 관심이 커지면서 이를 실질적으로 사용할 수 있는 기반을 만들어내는 기업이 나타났다.

대화형 인공지능(AI) ‘챗GPT’가 불러온 바람이 거세다. 사람과 자연스럽게 대화하고 번역, 검색, 텍스트 생성 등을 하는 이 AI 모델은 대학 과제나 회사 업무 등에 활용되며 새로운 업무 혁신을 가져오고 있다. 실제로 광고 문구나 인사말, 메일 작성 등의 업무에는 챗GPT를 활용하는 이들이 많아졌다. 이 때문에 오픈AI와 더불어 구글, 메타 등 빅테크 기업과 국내에선 네이버, LG, 카카오 등 대기업에서 초거대 AI 기반 생성형 모델 제작에 나선 상황이다.

하지만 챗GPT는 실제 업무에 적용이 어렵다는 평도 많았다. 메일 작성이나 마케팅 문구 작성 등에서는 아이디어를 얻을 수 있지만, 사람의 허언증처럼 맞지 않은 내용을 사실처럼 얘기하는 ‘할루시네이션(환각)’ 현상 탓에 부정확한 정보를 검색하고 이를 기반으로 맞지 않은 글을 제작할 가능성이 있어서다. 보안이 민감한 기업에서는 챗GPT를 활용하던 중 회사 기밀이 노출될 수 있는 위험부담도 있었다. 따라서 마치 ‘그림의 떡’처럼 AI를 활용하고 싶지만, 이를 쉽게 적용하지 못하는 기업이 많았다.

그런데 그림의 떡을 실제 떡으로 만드는 기업들이 나타났다. △포티투마루 △바이브컴퍼니 △스켈터랩스 △올거나이즈 등 국내 AI 스타트업과 중소기업이다. 이들 기업은 자체 자연어처리(NLP), 자연어이해(NLU), 기계독해(MRC) 기술로 기업들이 챗GPT와 같은 생성형 AI를 사용할 수 있게 했다. 일반 사람이 범용적으로 사용하는 생성형 AI를 각 기업에 특화된 형태로 제작해 업무에 녹여낼 수 있게 한 것이다. 각 분야 검증된 데이터와 기업이 제공한 데이터를 제공하고, 보안 문제가 없도록 온프레미스(사내 구축형) 형태로 제작해 할루시네이션과 보안 문제도 없앴다. 아이언맨에 나오는 AI 조수 ‘자비스’처럼 모든 분야에서 사용자를 지원하진 못하지만, 특수한 영역에서만큼은 그 역할을 할 수 있는 AI 모델을 만들어 낸 것이다.

◇포티투마루, 한국어·영어 모두 잘하는 MRC로 세계 시장 진출

각 기업에 특화된 생성형 AI를 제작한 업체의 공통점은 MRC에 있다. MRC는 말 그대로 기계가 글을 독해할 수 있는 능력을 뜻한다. AI가 글을 독해해 이를 토대로 질문하고 답하는 것이 가능하다. 본문에서 스스로 질문을 만들고, 또 사용자가 정한 질문에 답할 수 있다. 포티투마루, 바이브컴퍼니, 스켈터랩스, 올거나이즈 등 국내 기업은 이 MRC 기술과 NLP, NLU 기술, 그리고 챗GPT 기술을 더해 특화된 분야의 생성형 AI를 개발했다. 챗GPT의 기반이 GPT-3.5나 GPT-4처럼 1750억 개 매개변수를 가진 거대한 대형언어모델(LLM)을 기반으로 하고 있지 않지만, 이보다 경량화된 모델로 특화된 분야만 잘 아는 AI를 제작했다.

포티투마루는 2018년 미국 스탠포드대가 주관한 글로벌 MRC 경진대회 ‘SQuAD2.0’에서 구글 AI팀과 공동 1위를 하고, 2020년 마이크로소프트(MS)가 주최한 언어이해 경진대회 ‘GLGE’에서 1위에 오른 기술력 있는 기업이다. 지난 5월 ‘LLM42’라는 LLM을 자체 개발해 한국뿐 아니라 해외에 기술 공급을 추진하고 있다. 

포티투마루는 기계독해(MRC) 기술을 기반으로 질문과 답변을 생성하는 ‘앤서링 AI’ 기술을 개발했다. /포티투마루

LLM42는 솔루션 구축과 학습, 서비스에 들어가는 비용을 절감한 경량화 모델이다. 여기에 기업용 프리이빗 모드를 지원해 기업 내부 데이터나 민감한 고객 정보의 외부 유출을 막는다. 여기에 MRC 기반 엔진으로 할루시네이션 문제도 줄였다. 사용자가 질문을 던지면 MRC로 정답만 찾아낸 뒤 그 답만 말하게 한 것이다.

포티투마루는 기존에 MRC 기술을 전자, 통신, 조선해양, 자동차, 은행, 증권, 유통, 미디어, 법률, 교육, 헬스케어 등 다양한 분야에 공급해 온 만큼 LLM42 기반 서비스도 해당 분야에 공급할 것으로 전망된다. 최근에는 글로벌 서비스형소프트웨어(SaaS) 서비스를 출시하며 해외 진출 속도도 높이고 있다.

김동환 포티투마루 대표는 “챗GPT의 대표 문제인 할루시네이션 현상은 LLM 자체적으로는 근본적인 해결이 어렵지만, 다년간 다양한 산업 분야에서 검증된 QA42 정담 엔진을 통해 줄였다”면서 “앞으로 각 비즈니스 영역에 퍼포먼스가 날 수 있는 경량화 모델을 고도화해 글로벌 유니콘 기업으로 자리 잡겠다”고 말했다.

◇바이브컴퍼니, 데이터와 MRC 무기로 자체 LLM 개발

MRC 분야 또 다른 강자인 바이브컴퍼니는 자체 개발한 LLM인 ‘바이브GeM’을 기반으로 한 차세대 뉴럴서치 엔진 ‘바이브 서치’를 19일 정식 출시했다. 바이브컴퍼니는 한국어 MRC 경진대회인 ‘코쿼드(KorQuAD) 1.0’ 기반 성능 평가에서 지난해 1위를 기록하고 꾸준히 선두 자리를 지키고 있는 기업이다. 코쿼드 1.0은 2018년 12월 LG CNS가 공개한 위키백과 기반 AI 학습용 한국어 표준데이터 7만 건을 포함한 한국어 질의응답 데이터셋이다. 대회는 이 데이터셋을 바탕으로 AI가 약 10분 동안 수천 개의 비정형화된 주관식 질문에 답하는 방식으로 진행된다. 답변의 정밀도와 재현율에 따라 점수를 높게 산출한다.

회사가 이번에 출시한 바이브 서치는 키워드 기반이었던 기존 검색 방식을 뉴럴서치(신경망 검색)으로 고도화한 검색 엔진이다. 문장 형태 질문을 입력하면 AI가 질문 의도를 파악해 사용자가 원하는 정보를 제공한다. 기존 키워드 방식은 사용자가 정확한 단어를 모르면 정보를 찾기 어려웠고 이를 위해 다양한 웹 문서를 직접 클릭해야 하는 불편이 있었지만, 이 모델은 질문 의도에 부합하는 답변을 빠르게 제공한다.

바이브컴퍼니는 자체 대화형 AI 기술과 LLM을 기반으로 한 검색 모델 바이브 서치를 출시했다. /바이브컴퍼니

기존 검색보다 예측이나 분석도 정확하다. 일례로 ‘전세 사기를 당했을 때 공인중개사에게도 처벌할 수 있나요?’라고 물어보면 학습한 판례 데이터를 근거로 관련 정보를 풀어서 설명한다. 현재 이 정보를 알려먼 네이버 지식인을 통해 물어보거나 법무법인 등을 찾아가야 하는데, 바이브 서치를 사용하면 해당 정보를 빠르게 받아볼 수 있는 것이다.

바이브컴퍼니는 기술 공급 분야를 현재 법률과 금융으로 한정했다. 범용적으로 사용하는 모델보다는 전문화된 영역에서 할루시네이션과 보안 문제없이 기업과 소비자가 사용할 수 있게 하기 위해서다. 실제로 회사는 MRC 기술을 이용해 답변의 근거가 되는 원문 데이터에서 답을 찾아 출처와 함께 보여줘, 생성형 AI가 허위 정보를 생산하는 할루시네이션 문제를 보완하고 답변의 신뢰성을 높였다. 또 클라우드 방식과 더불어 온프레미스로도 기업과 기관에 서비스 해 데이터 유출 문제도 줄였다.

윤준태 바이브컴퍼니 부사장은 “오랜 기간 빅데이터 사업을 통해 많은 데이터를 수집해 온 우리는 AI 모델을 양질의 데이터로 학습시켰고, 여기에 한국 1위 MRC 기술을 더해 단락 요약, 생성 기술을 고도화했다”며 “정부 주도 ‘초거대 AI 활용지원 사업’에서 공급 기업으로 선정된 만큼 앞으로 많은 기관과 기업에 실질적인 AI 활용을 지원할 수 있을 것으로 생각한다”고 말했다.

◇올거나이즈·스켈터랩스, 기업용 대화형 AI 시장 참전

자체 MRC, NLU 기술을 보유하고 있는 스켈터랩스와 올거나이즈의 활약도 기대된다. 

스켈터랩스는 자체 대화형 AI 기술과 LLM 기반 기술을 더해 하반기 경량화 LLM 모델을 출시할 예정이다. 이를 위해 ‘벨라(BELLA)’라는 브랜드를 정식 런칭하기도 했다. 회사는 이를 기반으로 기업 업무에 최적화된 여러 과업을 수행하는 애플리케이션 ‘벨라-큐나(QNA)’를 출시했다. 전문성 있는 정보와 내부 정보를 기반으로 정답을 찾아주는 GPT 기반의 Q&A 챗봇이다. 문서 등 기업 내 데이터를 학습해 사용자가 질문을 하면 필요한 답을 바로 찾아주는 서비스다. 여기에 더해 기업 업무에 최적화된 독자적인 LLM 개발도 준비 중이다. 민감 데이터 유출, 데이터 주권 등의 문제를 해결하고, 고객사마다 맞춤형의 경량화된 모델을 제공해 폐쇄망에서도 데이터 유출 걱정 없이 LLM을 활용할 수 있도록 지원하는 기술이다. 

김도연 스켈터랩스 최고제품책임자(CPO)는 “우리는 자연어를 인식해 텍스트로 변환하는 음성인식(STT)과 목소리를 생성하는 음성합성(TTS), 언어의 의미를 독해하는 MRC, 사용자 접점에서 서비스되는 챗봇 등 대화형 AI와 관련한 모든 분야 기술을 보유하고 있다”며 “해당 기술들을 필요에 맞게 결합해 맞춤형 솔루션을 만들어 낼 수 있다”고 했다.

스켈터랩스가 출시한 벨라-QNA는 대화부터 문서독해 등 다양한 서비스가 가능하다.

한국뿐 아니라 미국과 일본 시장에 AI 챗봇 서비스를 공급하는 올거나이즈도 최근 기업이 데이터 유출 걱정 없이 내부에서 AI 거대 언어모델을 자유롭게 활용할 수 있는 솔루션인 ‘알리 LLM Ops’를 출시했다. 오픈소스 대형언어모델(LLM)을 활용해 기업이 사내 구축형으로 LLM을 자유롭게 선택하고 활용할 수 있는 서비스다. 민감한 개인정보를 다루거나 데이터 유출을 걱정하는 기업들을 위해 출시됐다. 이 제품을 활용하면 올거나이즈의 자연어 기반 인지 검색 솔루션인 알리에서 노코드 기반 LLM 애플리케이션을 쉽게 개발할 수 있다. 기업 고객은 자신의 상황에 가장 잘 맞은 언어모델을 자유롭게 선택하고, 개발 현장에 노코드로 바로 반영 가능하다.

이창수 올거나이즈의 대표는 “사내구축형 LLM은 기업 데이터가 외부에 공개되는 것을 꺼리는 기업에 최적화된 형태”"라며 “알리 LLM Ops를 활용하면 기업마다 각각의 니즈에 맞는 언어모델을 선택해서 노코드 기반 앱을 쉽게 만들 수 있고, 원할 경우 언어모델을 변경하는 것도 가능하다”고 했다.

이 같은 중소기업, 스타트업의 활약은 최근 LLM 관련 부작용을 염려하는 목소리에 대응할 수 있는 소재다. 최근 AI 업계 한 축에는 생성형 AI의 부작용을 우려하고 이를 규제해야 한다는 목소리가 커지고 있다. 국내 기업들은 이러한 목소리에 맞서 부작용을 줄이고 실제 사용할 수 있는 서비스를 개발했기 때문이다. 국내 대기업에서 근무하고 있는 AI 개발자는 “한국 기업들이 발 빠르게 움직여 실제 사용할 수 있는 수준의 AI 모델을 내놓은 것은 놀라운 일”이라면서 “GPT를 응용하는 것에서 벗어나 최근에는 자체 모델을 개발하고 있어 많은 업무 분야에서 생성형 AI 사용이 크게 늘어날 것으로 기대된다”고 말했다.

홈으로 이동 상단으로 이동