거짓말쟁이 AI가 훌륭한 직원이 된 사연
AI 허언증 막는 치료제, RAG
AI가 내린 답변 점수로 보여주는 기술도 나와
허언증이 있지만, 함께 있으면 너무나 든든한 동료. ‘똑똑한 거짓말쟁이’에게 제대로 일을 시키기 위한 인공지능(AI) 기업들의 움직임이 부지런하다.
지난해 9월 미국 샌프란시스코에서 열린 세일즈포스 연례행사 ‘드림포스 2023’에서 마크 베니오프 세일즈포스 최고경영자(CEO)는 생성형 AI를 똑똑한 거짓말쟁이로 비유했다. 그는 “대형언어모델(LLM)은 매우 설득력 있는 거짓말쟁이”라며 “미래에 경이로운 기회를 가져올 수 있는 기회지만, 기업과 직원에겐 그다지 유용하지 않을 수 있다”고 말했다. 이어 “하지만 우리는 모두 LLM이 미래를 위한 경이로운 기회라는 것을 알고 있듯, 이 기회를 쟁취해야 한다”고 했다. 그의 말처럼 전 세계 많은 기업이 이 기회를 쟁취하고자 뛰어들고 있다. 똑똑한 거짓말쟁이의 허언증을 치료할 방안 역시 쏟아지는 중이다.
생성형 AI가 똑똑한 거짓말쟁이로 불리는 이유는 할루시네이션(환각) 현상 때문이다. 생성형 AI는 허언증처럼 없는 사실을 진짜처럼 얘기하는 환각 현상을 일으킨다. 챗GPT가 상용화된 지 얼마 되지 않았을 때 불거졌던 ‘세종대왕 맥북 던짐 사건’이 대표 사례다. 한 이용자가 “세종대왕 맥북 던짐 사건에 대해 알려달라”고 요청하자, 챗GPT는 이야기를 직접 창작해 실제로 있었던 일인 것처럼 설명했다.
언어 생성 모델이 할루시네이션 현상을 일으키는 것은 어쩌면 당연하다. 챗봇과 같은 AI는 실제로 사람과 대화하는 것이 아니다. 글을 계속 이어갈 뿐이다. 글을 이어갈 때는 질문이 필요하다. 이 과정이 프롬프트다. 글을 만드는 것은 확률을 기반으로 한다. 일례로 ‘I am’ 다음엔 ‘boy’나 ‘girl’의 단어가 많이 나왔으니 확률적으로 이 단어를 생성하고, 반대로 ‘dog’, ‘cat’ 등의 단어는 많이 없으니 선택하지 않는다. 이러한 방식은 글을 그럴싸하게 만들 수 있는 장점이 있지만, 정답은 아니다. 확률에 가장 가까운 답일 뿐이다.
물론 이것이 나쁜 현상만은 아니다. 창작 영역에선 좋다. 소설을 쓰거나 디자인할 때 아이디어 영감을 받을 수 있다. 하지만 사실관계가 중요한 분야에선 아니다. 금융, 법, 공공 등 신뢰가 중요한 분야에선 사실처럼 말하는 AI 허언증이 장애가 된다. 이 때문에 AI 기업들은 할루시네이션을 줄여 AI를 실제 비즈니스에 응용할 방법을 찾고 있다.
◇ 리트리버 강아지에 생성형 기술 탑재?… RAG의 정체
AI 허언증인 할루시네이션을 줄일 대표 기술은 검색증강생성(RAG)이다. RAG는 방대한 양의 대규모 원천 데이터에서 AI가 필요로 하는 특정 정보나 지식만 정확하게 검색하는 기능이다.
RAG는 ‘리트리버(Retriever)’ 모델에서 시작됐다고 볼 수 있다. 리트리버는 검색 엔진에 접속해 정보를 찾거나 내부 문서에서 맥락을 찾아주는 모델을 뜻한다. 정보를 찾아 언어모델에 입력하기까지 과정을 수행하는 모듈이다. 강아지 리트리버가 공을 물어오는 것처럼 정보를 물어와 리트리버 모델로 불린다.
생성형 AI의 할루시네이션 현상을 줄이기 위해선 잘 훈련된 리트리버가 필요하다. 제대로 된 정보를 물어와야 AI가 정확한 답변을 생성할 수 있어서다. 이 리트리버를 활용해 질문답변 시스템을 구성하는 아이디어는 2017년부터 등장했다. 메타가 발표한 DrQA다. 메타는 머신러닝 기반 리트리버를 활용해 전체 데이터베이스로부터 상위 n개 문서를 검색하고, 이 문서 정보에 기계독해(MRC) 모델을 적용해 질문에 대한 답을 추출하게 했다. 그중 가장 확률값이 높은 답을 최종 정답으로 채택하게 했다.
이후 언어모델이 발전하면서 리트리버 활용 방법도 진화하기 시작했다. 대표 사례가 구글이 2019년 공개한 ORQA다. 이 모델은 트랜스포머 기반 언어모델에 활용됐다. 질문과 데이터가 있는 문서 사이의 의미적 유사성을 측정해 질문에 가까운 데이터를 가져오는 방식으로 리트리버를 설계했다. 리트리버에 의미적 유사성을 인식하는 기술을 훈련했다고 보면 된다. 그 이후 등장한 게 RAG다. 리트리버에 생성형 AI를 접목했다. 사용자 질문에 답을 내놓는 방식에 생성형 언어 모델에 맡겼다. 그동안은 사람이 MRC 모델을 활용하는 방식을 생성형 모델로 대체했다고 보면 된다. 이를 통해 보다 유연하게 답을 제공할 수 있게 됐고, 언어모델 자체에 내재된 지식을 활용해 꼭 문서에 적혀 있지 않은 내용도 답변할 수 있게 됐다.
◇ RAG 탑재한 LLM, 비즈니스에 다양하게 활용
RAG는 현재 생성형 AI를 비즈니스에 접목하는 용도로 활용되고 있다. 똑똑한 거짓말쟁이에게 일을 시킬 방법이 됐다. 오라클은 최근 RAG용 OCI 생성형 AI 에이전트 베타 버전을 공개했다. 기업 자체 데이터를 사용해 RAG 기능을 지원하는 서비스다. 비노드 맘타니(Vinod Mamtani) 오라클 클라우드 인프라스트럭처(OCI) AI 플랫폼 및 생성형 AI 서비스 부사장은 “오라클이 OCI 생성형 AI를 정식 버전(GA)으로 출시했다”며 “고객사는 이 모델을 파인튜닝 해 사용할 수 있고 별도 모델을 만들 필요가 없다”고 말했다. 탐송 한국오라클 회장은 “오라클은 기업간거래(B2B) 서비스에 특화한 기업”이라면서 “기업들이 생성형 AI를 활용하기 쉽도록 RAG 등의 기술을 이용하고 있다”고 밝혔다. 이어 “우리는 백터DB를 별도로 구축해 LLM에 없는 정보도 알려줄 수 있다”며 “여기선 사실 여부 등이 중요한데, AI가 맥락에 맞게 답을 넣을 수 있도록 RAG를 활용한다”고 설명했다.
국내에서는 포티투마루, 올거나이즈, 스켈터랩스 등의 기업이 RAG 활용을 돕고 있다. 기업에서 AI를 활용하기 쉽도록 그 기업의 정보가 담긴 전문 소형언어모델(sLLM)을 만들면서 여기에 RAG 기능도 탑재해 기업들이 AI를 실제 업무에 활용할 수 있도록 지원한다. 국내 MRC 강자인 포티투마루는 그동안 축적한 언어 AI 노하우를 집적해 지난해 RAG42를 공식 출시했다. AI가 답변할 때 할루시네이션 현상을 제거하고 답변 신뢰성을 높일 수 있는 기술이다.
포티투마루는 이 솔루션을 활용해 RAG 컨설팅부터 LLM 솔루션 구축까지 원스톱으로 제공하고 있다. 산업군별 도메인 특화 엔진 개발이 가능하도록 학습 데이터 구축과 파인튜닝까지 지원한다. 금융, 제조 등 고객사도 많다. 김동환 포티투마루 대표는 THE AI가 주최한 세미나에서 “금융, 엔지니어링 분야는 많은 데이터가 보유돼 AI가 이를 분석하고 업무 처리를 위해 활용되는 경우가 많다”며 “자동차 고장에 대한 정비 추천도 AI가 정비 이력을 표준화하고 딥러닝 기반으로 자동 분류해 이뤄지고 있다”고 설명했다. 또 “이처럼 LLM을 업무에 활용하려면 답변 정확도가 중요한데, 사실 LLM은 RAG 역량에 따라 성능이 크게 달라질 수 있다”면서 “우리는 MRC를 꾸준히 해온 경험과 LLM에 대한 노하우, 그리고 여기에 RAG 역량을 투입해 기업들이 생성형 AI를 업무에 활용할 수 있도록 지원하고 있다”고 밝혔다.
올거나이즈 역시 마찬가지다. 기업들이 생성형 AI를 활용하기 쉽도록 RAG 등이 탑재된 AI를 제공한다. 기업들이 생성형 AI 구축을 빠르게 구축할 수 있도록 해당 AI를 상품화해 ‘알리 LLM 앱 마켓’에 올린 점이 특징이다. 스켈터랩스도 RAG 기능을 탑재한 LLM 기반 기업 맞춤형 챗봇 솔루션 ‘벨라 큐나’를 출시했다. 객관성과 시의성에 한계가 있던 LLM에 RAG를 더해 정확하고 최신 데이터를 기반으로 답변을 생성할 수 있게 했다. 현재 이 제품은 KB국민카드가 사용하고 있다. KB국민카드의 이벤트 Q&AI 서비스는 벨라 큐나와 KB국민카드의 기업 이벤트 정보를 API로 연동하는 방식으로 진행됐다. 해당 서비스는 RAG를 활용해 매일 변화하는 최신 이벤트 정보를 간편하게 업데이트하고, 이를 기반으로 답변을 생성한다.
◇ AI가 물어온 답변, 점수로 보여준다
세일즈포스는 여기에 더해 AI가 답변한 내용의 정확도를 점수로 표시하는 기능을 선보였다. 세일즈포스의 AI 서비스인 ‘아인슈타인’을 활용하는 경우, AI가 답변한 내용의 정확도를 점수로 표시하게 했다. 점수는 AI가 해당 답변을 내린 근거를 바탕으로 한다. 데이터 분석 도구인 태블로를 통해 AI가 내린 답변 근거인 데이터를 분석하고 얼마나 신뢰할 수 있는지를 평가해 보여준다. 이 답변은 어떤 근거를 활용했고, 이 근거가 언제 나온 정보이기 때문에 90점에 해당한다고 표시해주는 방식이다. 사용자는 이 점수를 보고 해당 답변을 업무에 활용할지를 쉽게 선택할 수 있다.
세일즈포스 코리아에서 태블로 사업을 담당하고 있는 위장영 태블로 사업총괄은 “세일즈포스는 사용자가 AI를 믿고 사용할 수 있도록 ‘아인슈타인 트러스트 레이어’를 구축했다”며 “AI가 가장 최신의 또 가장 연관성 있는 데이터를 뽑아내는 기술과 더불어 그 데이터의 근거를 찾는 기술을 고도화해 이를 점수로 보여준다”고 말했다. 이어 “AI가 내린 답변의 점수를 가시적으로 보여주기 때문에 사용자가 이 답을 채택할 수 있는지 선택권을 준다”면서 “이처럼 고객들이 비즈니스에 AI를 활용할 수 있는 환경을 조성해나가고 있다”고 설명했다.