데이터 ‘양’에 집중해 온 AI 기업, 할루시네이션 줄이기 위해 데이터 ‘질’을 보다

생성형 AI 기술 발전에 따라 AI 기업들은 데이터의 질에 집중하기 시작했다. /픽사베이

텍스트와 이미지, 영상 등을 새롭게 생성해내는 인공지능(AI) 기술이 본격 상용화되기 시작하면서 크게 관심받기 시작한 기술이 있다. 데이터다. AI 모델을 만들기 위해선 반드시 필요한 재료인 데이터는 그동안 많은 기업에서 ‘양’에 집중했다. 최대한 많은 양의 데이터를 학습해 AI 모델을 고도화하기 위해서다. 하지만 최근 챗GPT와 같은 생성형 AI가 등장하면서 데이터를 보는 관점이 바뀌고 있다. 이 모델들이 허언증처럼 맞지 않은 내용을 사실처럼 말하는 할루시네이션(환각) 현상을 일으키기 시작하자 이젠 데이터의 ‘질’에 대한 관심이 커졌다. AI가 거짓을 말하지 않고 사실만 생성해낼 수 있는 안전장치를 데이터에서 만들 수 있기 때문이다.

◇세일즈포스, AI 코파일럿에 데이터 플랫폼 통합

데이터 질을 높이기 위해 AI 기업들은 다각도로 노력하고 있다. 고객관계관리(CRM) 기업 ‘세일즈포스’는 고객들이 신뢰할 수 있는 AI를 제대로 활용할 수 있게 하기 위해 생성형 AI를 데이터분석 플랫폼 ‘태블로’와 통합했다. 해당 플랫폼에 취합되고 분석된 데이터만 활용함으로써 AI 신뢰도를 더했다. 

세일즈포스는 12일(현지시간) ‘드림포스 2023’에서 ‘아인슈타인 코파일럿’을 새로 선보이며 이를 태블로와 완전히 통합했다고 밝혔다. 태블로는 방대한 데이터를 한눈에 볼 수 있도록 가공 및 가시화를 지원하는 플랫폼이다. 자칫 사람이 놓치기 쉬운 인사이트나 위험요소에 대한 정보를 빠르게 파악할 수 있도록 지원한다. 

마크 베니오프 세일즈포스 최고경영자(CEO) 이날 아인슈타인 코파일럿을 소개하며 “우리는 아인슈타인을 태블로 등 하나의 플랫폼으로 제공함으로써 AI에 신뢰성을 더할 수 있게 됐다”고 밝혔다. AI는 문장 생성할 때 데이터를 자산으로 활용하는데, 이 자산을 통합된 데이터에서만 사용해서다. 예를 들어 챗GPT는 범용 데이터를 통해 확률값으로 문장을 생성한다면, 아인슈타인은 세일즈포스 플랫폼 내의 데이터만 활용한다. 그만큼 할루시네이션 현상을 일으킬 가능성이 적다.

마크 베니오프 세일즈포스 CEO는 “하나로 통합된 메타데이터 플랫폼에 들어가면 놀랍고 선구적인 일을 시작할 수 있다”고 말했다. /김동원 기자

플랫폼 내에 데이터만 이용한다고 데이터가 적은 것은 아니다. CRM에 보유한 고객 데이터, 태블로에 있는 고객 행동 데이터, 슬랙에 있는 대화 데이터 등 고객에 관한 ‘메타 데이터’가 형성돼있다. 이를 토대로 고객 맞춤형 AI 서비스 제공이 가능하다. 베니오프 CEO는 “고객에 관한 모든 것은 메타데이터 플랫폼 안에 있다”며 “하나로 통합된 메타데이터 플랫폼에 들어가면 놀랍고 선구적인 일을 시작할 수 있다”고 말했다.

◇원티드랩·포티투마루, 데이터로 AI 품질 높이다

국내에서도 데이터를 활용해 AI 신뢰도를 높이는 사례가 증가하고 있다. 인적테크(HR) 기업 ‘원티드랩’은 개인화된 AI 커리어 설계 서비스를 출시하기 위해 회사에서 약 500만 건의 데이터를 별도 취합했다. 채용 데이터와 이용자·기업 데이터다. 

원티드랩은 이를 기반으로 AI 커리어 설계 서비스 ‘커리어맵’을 선보였다. 커리어맵은 개인의 커리어 목표 설정을 돕고, 이를 달성하기 위해 필요한 구체적인 정보를 제공하는 서비스다. 원티드 유저 데이터 기반의 ‘연봉예측기술’을 적용해 회사 혹은 직무별 연봉을 미리 확인할 수 있다.

원티드랩은 자체 데이터를 구축해 AI 코칭 서비스의 신뢰도를 높였다. /원티드랩

원티드랩은 독보적인 데이터를 취합할 수 있었던 이유에 대해 회사의 채용 서비스 ‘원티드’가 사업 초기부터 구직자가 최종 합격 후 수습 기간 3개월이 지난 후에 기업에 채용 수수료를 받는 것을 비즈니스 모델로 택했기 때문이라고 설명했다. ‘채용 당 과금’이 기본인 매칭 모델에서는 ‘합격률’이 매출을 결정하는 요소이기 때문에, 회사는 합격률 예측에 필요한 채용 전과정 데이터를 체계적으로 관리하며 쌓을 수 있었다는 것이다. 원티드랩 관계자는 “원티드랩만이 가질 수 있는 독보적인 데이터를 기반으로 개개인의 커리어를 능동적으로 발전시킬 기회를 제공하고자 한다”며 “앞으로 우리 모두가 즐겁게 일하고 성장할 수 있도록 돕는 다양한 AI 서비스를 선보일 것”이라고 밝혔다.

기계독해(MRC) 기업 ‘포티투마루’도 MRC 기술을 통해 AI 신뢰도를 높였다. 포티투마루는 전자, 통신, 조선해양, 자동차, 은행, 증권, 유통, 미디어, 법률, 교육, 헬스케어 등 다양한 분야에 AI를 공급하는 기업이다. 최근 이 기업은 경량화된 대형언어모델(LLM)과 이를 기반으로 한 생성형 AI를 출시했는데, 신뢰도를 경쟁력으로 삼았다. 비즈니스용으로 AI를 활용할 때 여기에 필요한 데이터를 찾아 MRC 기술을 적용해 AI가 사실만 말할 수 있게 한 것이다.

MRC는 말 그대로 글을 독해할 수 있는 AI 기술을 뜻한다. 논문, 책, 기사 등 다양한 글을 독해할 수 있다. 포티투마루는 이 기술을 기반으로 질문하고 답도 만드는 기술을 개발했다. 또 워드, 한글, PDF 등 모든 문서 형식을 독해할 수 있게 했다. 이를 활용해 고객사는 대화형 AI 등 다양한 서비스를 만들어가고 있다. 현대자동차는 이 모델로 자동차 설명서를 학습해 사용자가 궁금해하는 내용을 실시간으로 답변할 수 있는 기술을 차에 탑재했다. “주유구는 어디 있어?”라고 물으면 설명서를 모두 학습한 AI가 그 위치를 알려주는 방식이다. 두꺼운 설명서를 사용자가 다 이해하고 있지 않아도 AI와 소통하며 답을 알려주는 기술을 구축한 것이다. AI는 해당 설명서에 대한 답만 얘기하기 때문에 할루시네이션 문제가 적다.

김동환 포티투마루 대표는 기자와 인터뷰에서 “실제 기업이 비즈니스 용도로 AI를 사용하기 위해선 신뢰도가 관건”이라면서 “기업에서 신뢰하고 효율적으로 사용할 수 있도록 데이터에 집중한 경량화 모델을 만들었다”고 설명했다.

◇“AI에서 데이터는 물, 5급수 사용하면 5급수 AI 나와”

앞서 소개된 기업 사례 외에도 많은 AI 기업들이 생성형 AI 기술 개발에 참여하며 신뢰도를 높이기 위한 수단으로 데이터 품질에 관심을 두기 시작했다. 과거에는 무조건적으로 데이터 양만 추구했다면 이젠 데이터의 질을 더 중요시하는 기업이 많아졌다.

박지환 씽크포비엘 대표는 데이터 품질만 잘 관리해도 전력 문제와 할루시네이션 문제를 줄일 수 있다고 밝혔다. /김동원 기자

신뢰할 수 있는 인공지능 개발 안내서를 제작하는 씽크포비엘의 박지환 대표는 데이터의 질만 잘 관리해도 AI 최대 문제인 전력 사용과 할루시네이션 문제를 모두 잡을 수 있다고 설명했다. 그는 “AI를 요리로 비유하면 데이터는 물”이라며 “요리를 할 때 오염된 물을 사용하면 아무리 음식이 맛있어도 탈이 날 수밖에 없듯이 오염된 데이터를 사용하면 AI를 아무리 잘 만들어도 문제가 발생한다”고 지적했다. 이어 “세계 데이터의 약 65%는 중복 데이터”라며 “이러한 데이터의 품질만 잘 관리해도 AI 사용으로 인한 전기 사용 문제나 할루시네이션 문제 등을 크게 줄일 수 있다”고 강조했다.

홈으로 이동 상단으로 이동