세계 첫 양방향 멀티모달 AI에서 비즈니스 전문 AI로 고도화
유니버스·디스커버리·아틀리에 3대 플랫폼으로 ‘엑사원 시대’ 개막
-
세계 첫 양방향 멀티모달 기능으로 한국 초거대 인공지능(AI)의 자존심을 살린 LG AI연구원의 ‘엑사원(EXAONE)’이 새로운 버전으로 돌아왔다. 이번엔 ‘신뢰성’과 ‘전문성’을 무기로 실제 산업 현장에서 생성형 AI 활용 가능성을 선언했다.
LG AI연구원은 19일 서울시 강서구에 위치한 LG사이언스파크에서 ‘LG AI 토크콘서트’를 열고 ‘엑사원 2.0’을 발표했다. 엑사원은 2021년 12월 LG AI연구원이 처음 공개한 초거대 AI 모델이다. 처음 공개할 때부터 엑사원은 초거대 AI 사이에서도 경쟁력을 가진 모델로 평가됐다. 일부 모델이 텍스트만 생성하고 일부 모델은 이미지만 생성하는 것과 달리, 텍스트와 이미지를 모두 생성하는 AI 모델이어서다. 일례로 엑사원은 텍스트를 입력하면 이에 맞는 이미지를 만들어주고, 이미지에 대해 텍스트로 설명하는 것이 가능하다. 이러한 경쟁력을 토대로 지난해 2월 미국 뉴욕에서 열린 ‘F/W 뉴욕 패션위크’에서는 엑사원으로 디자인한 옷이 소개되기도 했다.
명확한 비즈니스 모델을 갖춘 것도 엑사원이 가진 경쟁력 중 하나다. LG AI연구원은 제조, 통신 등 LG 계열사가 진행하는 산업을 비롯해 교육, 금융, 유통, 의료, 플랫폼, VR 등 AI를 활용할 수 있는 전 산업군과 생태계를 조성했다. 초거대 AI를 어떻게 활용할지를 도메인별 대표 기업·기관들과 협업해 연구개발하고 있다. 오픈AI, 구글, 메타 등 국내외 기업이 초거대 AI를 지속 발표하고 있지만, 아직 명확한 비즈니스 모델을 제시하지 않은 것과 다르게 애초부터 명확한 비즈니스 목적을 갖고 모델을 고도화하고 있는 것이다. 이 때문에 구글 클라우드는 AI 반도체 중 하나인 ‘텐서프로세서유닛(TPU)’을 LG에 먼저 공급하고 싶어 하는 것으로 알려졌다. 구글 클라우드는 엔비디아 GPU와 경쟁해야 하는데, GPU와 달리 TPU는 아직 모든 산업 분야에서 활용성을 인정받지 못해 전 산업 분야와 협업하는 LG와의 협력이 필요해서다.
LG AI연구원은 이번 토크콘서트에서 기존 모델보다 더 고도화된 ‘엑사원 2.0’을 소개했다. 실제 비즈니스에서 활용이 유리할 수 있도록 전문성과 신뢰성을 높인 것이 특징이다. 또 각 분야에서 활용이 쉽도록 목적에 맞춰 △엑사원 유니버스 △엑사원 디스커버리 △엑사원 아틀리에 등 3가지 버전으로 구체화했다. 이날 발표자로 나온 배경훈 LG AI연구원장은 “글로벌 빅테크 기업들의 생성형 AI 서비스 발표를 지켜보면서 LG는 LG만의 차별화된 생성형 AI 서비스를 만들기로 결정했다”며 “기존 AI 생성형 서비스와 차별된 엑사원 2.0을 만들고 이를 기반으로 (유니버스, 디스커버리, 아틀리에 등) 3대 서비스 플랫폼 고도화를 진행했다”고 밝혔다.
-
◇생성형 AI의 신뢰성 문제, 데이터와 구조적 문제로 해결
이번에 발표한 엑사원 2.0의 가장 큰 특징은 ‘활용 가능성’이다. 초거대 AI 기반 생성형 서비스는 질문에 유창한 답변을 하며 사용자에게 새로운 경험을 가져왔지만, 비즈니스 활용 가능성은 적다고 평가됐다. 생성되는 결과에 대한 신뢰도가 높지 않고, 이미지의 경우 저작권 문제 등에 휩싸일 수 있어서다. 또 기업 내부 데이터가 유출될 수 있는 우려가 있고, 대규모 모델을 학습하고 운영하는 과정에서 큰 비용이 발생해 투자대비효과(ROI)에 대한 확신도 없었다. 초거대 AI 모델이 지속 공개되고 생성형 AI에 관한 사회적 관심이 높아진 가운데서도 이를 활용해 비즈니스 성과를 낸다는 기업을 찾기 어려운 것도 이 때문이다.
LG AI연구원은 이 같은 생성형 AI가 가진 한계를 깨고 실제 비즈니스에 적용할 수 있도록 학습 데이터를 강화했다. 현존하는 전문지식 데이터 상당수가 영어인 점을 고려해 엑사원 2.0을 한국어와 영어를 동시에 이해하고 답변할 수 있는 이중언어(Bilingual) 모델로 개발했고, 학습 데이터양도 기존 모델 대비 4배 이상 늘렸다. 실제로 엑사원 2.0에 사용된 데이터는 논문·특허 등 약 4500만 건의 전문 문헌과 3억 5000만 장의 이미지다. 단 학습 데이터 품질은 강화했다. 중복되거나 불필요한 데이터는 없애고 논문, 특허 등 검증된 데이터만 학습했다. 전문성 있는 자료만 학습시킴으로써 AI 모델이 할루네이션 문제를 일으킬 가능성을 줄였다.
데이터 품질 강화는 AI가 발생시키는 전력량을 줄여 비용 낭비와 탄소 배출 감소에도 효과가 있다. 현재 AI에 학습되는 데이터는 상당수가 중복데이터다. 불필요한 데이터까지 학습해 그만큼 전력 사용량이 늘어난다. 따라서 중복되거나 불필요한 데이터를 줄여 AI 모델 신뢰성을 높이고 불필요한 전력 사용을 줄여야 한다는 의견이 AI 업계에서 꾸준히 제기돼왔다. LG AI연구원이 이번 발표에서 직접 밝히지는 않았지만, 엑사원에 학습시키는 데이터 품질을 강화함으로써 불필요한 전력 사용을 방지해 모델 신뢰성을 높이면서 AI에 소모되는 탄소도 저감시켰을 것으로 예상된다. 실제로 LG AI연구원은 데이터 품질을 강화하고 모델을 경량화함으로써 엑사원 2.0의 언어모델은 기존 모델과 동일한 성능을 유지하면서도 추론 시간은 25% 단축하고, 메모리 사용량은 70% 줄여 전체적인 비용을 78% 절감했다고 밝혔다. 또 언어와 이미지 간 양방향 생성이 가능한 멀티모달 모델은 이미지 생성 품질을 높이기 위해 기존 모델 대비 메모리 사용량을 2배 늘렸지만, 추론 처리 시간을 83% 단축해 약 66%의 비용 절감을 이뤘다고 했다.
LG AI연구원은 할루시네이션 현상 완화를 데이터 품질 외에도 구조적인 방법으로 풀었다. 사용자가 질문한 내용과 가장 유사한 문서를 찾고 그 안에서 필요한 정보를 인코더로 이해하고, 그 내용을 디코더로 생성하게끔 했다. 여기서 인코더와 디코더는 기계에 문장을 트레이닝하는 프로세스를 뜻한다. 문장을 적절한 벡터로 변환하는 것을 인코딩, 벡터를 적절한 문장으로 변환하는 것을 디코딩이라 부른다. 일반적으로 언어를 이해하는 능력은 인코딩 수행방식을 사용하고, 언어 생성능력은 디코딩에 의존한다. 구글이 2018년 출시한 버트는 인코더 기능만 갖췄다. 트랜스포머 모델을 적용하는 인코더만 탑재됐다. 반대로 문장 생성에 중점을 둔 GPT-3는 디코더 기능만 갖췄다. LG AI연구원은 질문과 유사한 문서를 인코더로 이해해 확실한 내용만 디코더로 생성하게끔 한 것이다. 배 원장은 “학습데이터의 품질을 높이고, 여기에 구조적인 문제도 더하면서 할루시네이션 문제를 완화했다”며 “아직 100% 해결했다고 말할 수는 없지만 관련된 근거를 밝혀주는 기술들도 더하면서 할루시네이션 이슈를 줄여가는 데 꾸준히 노력할 계획”이라고 말했다.
-
◇맞춤형 LLM의 시작
LG AI연구원은 초거대 AI의 비즈니스 활용이 쉽도록 ‘엑사원 2.0’을 원하는 용도나 예산에 맞도록 맞춤형으로 사용할 수 있다고 밝혔다. 고객은 언어, 비전, 멀티모달 등 종류부터 크기, 사용 언어까지 맞춤형으로 설계할 수 있다. 고객 데이터 보안을 위해 학습 과정을 미세 조정하는 파인튜닝(Fine-Tuning)과 AI 인프라를 고객이 보유한 서버에 직접 설치하는 서버 구축형(On-Premise), 사설 클라우드(Private Cloud) 방식 등을 지원한다.
배 원장은 “우리는 300빌리온, 1.7빌리온, 70빌리온 20빌리온, 8.8빌리온 등 다양한 크기의 LLM이 있고 이를 고객사에 맞춰 제공하고 있다”며 “현재 LG전자, LG유플러스, LG CNS, LG생활건강 등 LG 계열사와 셔터스톡, 엘스비어 등 글로벌 기업에 맞춤형 LLM 서비스 제공을 위해 사업을 진행하고 있다”고 밝혔다. 또 “오늘 공개한 유니버스, 디스커버리, 아틀리에 등 플랫폼도 우리가 보유한 LLM을 기본으로 해서 필요에 맞춰 성능 차별화를 이룬 것”이라고 소개했다.
◇진짜 전문가 대화형 AI ‘엑사원 유니버스’
엑사원 유니버스와 디스커버리, 아틀리에는 LG AI연구원이 지향하는 ‘전문가 AI’의 3대 플랫폼이다.
엑사원 유니버스는 기존 질의응답·대화, 텍스트 분류·요약, 키워드 추출·생성, 번역 등 기능별로 메뉴를 나눴던 기존 방식에서 전문가용 대화형 AI 플랫폼으로 탈바꿈했다. 단 챗GPT 등 다른 대화형 AI 서비스와 답변을 생성하는 방식이 다르다. 기존 모델들이 사전 학습한 데이터를 토대로 답변을 생성했다면, 유니버스는 도메인별 최신 전문 데이터까지 포함해 근거를 찾아내며 추론한 답변을 생성한다. 최신 논문이 데이터베이스(DB)에 업로드되면 여기서 근거를 가져와 최신 논문에 기반한 답변도 가능하고, 기업의 업무 매뉴얼이나 최신 업무 정보가 업데이트되면 이 역시 이를 근거를 토대로 정확한 답변을 할 수 있다. 또 화면 좌측과 우측에는 질문과 연관성이 가장 높은 전문 문헌들과 AI가 답변하는 과정에서 활용한 단락 등이 표시돼 사용자는 AI가 답변한 근거를 한눈에 살필 수 있다.
이문태 어드밴스드 ML 랩장은 “현재 언어모델은 문맥에 맞는 다음 단어를 만들어내는 방식”이라면서 “이 방법으로는 답변 근거들의 전체적인 밑그림을 그리기 어렵고 맞지 않은 사실을 생성하는 문제가 발생한다”고 지적했다. 이어 “엑사원 유니버스는 전문가에게 올바른 인사이트를 제공하기 위해 최신 데이터베이스(DB)에서 관련 전문 문서를 파악하고 다시 문서 속에 세부적인 근거들을 추론한 후 서로 다른 근거들을 종합해 인사이트를 만드는 종합적·논리적 추론 기능으로 답을 생성할 수 있게 설계했다”면서 “생성의 근거를 자연스럽게 레퍼런스로 제공할 수 있다”고 했다.
실제로 엑사원 유니버스는 메타의 ‘갤럭티카’, 오픈AI의 ‘인스트럭트GPT’와 비교해 전문가에 가장 가깝게 답변한다는 것이 입증됐다. AI 분야에 대한 다양한 난이도의 과학적 질문 약 1800개 평가 결과를 바탕으로 분석한 이번 결과는 다음 주에 열리는 국제 권위 AI 학회인 ‘국제머신러닝학회(ICML) 2023’에서 공개될 예정이다. 이 랩장은 “글로벌 최고 수준의 초거대 언어 플랫폼들과의 경쟁력을 알기 위해 내부에서 내·외부 연구원들과 평가했는데, 우리가 목표로 하는 전문성과 신뢰성 두 분야에서 타사 대비 높은 만족도를 받았다”며 “유니버스의 답변은 타사 대비 기술적 깊이가 깊어 전문성이 탁월하고 시각 자료 등이 함께 제공돼 유용하다고 평가됐다”고 했다. 이어 “다만 전달력과 독창성 측면은 보완이 필요하다는 평가를 받았는데, 아무래도 전문지식의 디테일을 깊이 있게 전달하다 보니 사용자가 알기 쉽고 유창하게 설명하는 능력은 부족해 이 부분은 지속 개선해 나가겠다”고 말했다.
엑사원 유니버스는 AI를 도메인으로 한 서비스가 처음 출시된다. 해당 서비스는 7월 31일부터 LG그룹 내 AI 연구자와 협력 중인 대학을 대상으로 시작된다. 9월에는 LG에서 AI를 연구하거나 공부하는 임직원 대상으로 정식 서비스될 예정이다.
-
◇바이오·화학 연구의 내비게이션 ‘엑사원 디스커버리’
엑사원 디스커버리는 신소재·신물질·신약 탐색에 적합한 AI 플랫폼이다. 논문과 특허 등 전문 문헌의 텍스트뿐만 아니라 분자 구조, 수식, 차트, 테이블, 이미지 등 비정형 데이터까지 AI가 읽고 학습할 수 있는 ‘심층문서이해(DDU)’ 기술이 적용됐다. 실제 화학과 바이오 분야 논문은 분자, 구조식, 표, 차트 등 여러 가지 형태의 데이터가 많다. 이 때문에 데이터화하는 것부터가 일이었다. 엑사원은 텍스트뿐 아니라 이미지, 표 등 다양한 형태의 비정형데이터도 이해할 수 있기 때문에 PDF 파일만 올리면 해당 데이터를 모두 처리할 수 있다. 그만큼 데이터 인식부터 생성까지 손쉽게 할 수 있다. 배 원장은 “LG의 DDU 기술은 글로벌 최고 성능을 자랑한다”면서 “지난해 국제 대회에서 1위를 차지하기도 했다”고 말했다. 이어 “DDU 기술은 올해 2월부터 LG 화학의 특허 검색 서비스에 활용되고 있고, 지난 7월 3일에는 세계적인 과학전문 출판사인 엘스비어와 사업화 계약을 체결하기도 했다”고 덧붙였다.
엑사원 디스커버리는 DDU 기술을 바탕으로 가상에서 실험을 선행할 수 있다. 실제 연구에 앞서 AI를 활용해 어떤 분자를 빼면 좋은지를 가상에서 실험해 해당 예측값을 얻을 수 있다. 예측값을 토대로 연구자는 해당 연구를 실제로 이행하면 좋은지 아닌지 등을 사전에 판단해 연구 실패와 시행착오 등을 줄일 수 있다. AI를 기반으로 한 디지털 실험실이 생기는 것이다. 한세희 MI(Materials Intelligence) 랩장은 “엑사원 디스커버리를 사용하면 내비게이션을 켜고 소재 개발을 하는 것과 같은 효과를 낼 수 있다”면서 “1만 회가 넘었던 합성 시행착오를 수십 회로 줄이고, 연구개발 소요 시간은 40개월에서 5개월로 단축시킬 것”이라고 예상했다.
엑사원 디스커버리는 올해 4분기에 그룹 내 화학·바이오 분야 연구진들을 대상으로 제공될 예정이다.
◇멀티모달의 꽃 ‘엑사원 아틀리에’
엑사원 아틀리에는 이미지-텍스트가 짝을 이룬 페어(Pair) 데이터 3.5억 장을 학습한 엑사원 2.0을 기반으로 이미지 생성과 이해에 특화된 서비스를 제공한다. 사용자가 입력한 텍스트를 이해해 관련 이미지를 생성하고, 사용자가 입력한 이미지를 텍스트로 설명할 수도 있다. 학습한 데이터는 저작권이 확보된 것만 사용해 저작권 이슈도 줄였다.
엑사원 아틀리에가 이미지를 이해할 수 있는 비결은 ‘제로샷 이미지 캡셔닝(Zero-shot Image Captioning)’에 있다. LG AI연구원이 자체 개발한 이 기술은 AI가 기존에 학습한 대량의 이미지와 텍스트 데이터를 기반으로 배경, 인물, 행동 등 이미지 상의 다양한 요소와 특징을 인식하고, 그 관계를 이해하고 설명한다. 문장이나 단어의 길이와 개수에 따라 다르지만 평균적으로 5개 문장과 10개 키워드를 10초 이내에 생성한다. 이미지 범위를 1만 장으로 확장하면 이틀 이내에 작업을 끝낼 수 있다.
-
김승환 비전(Vision) 랩장은 “엑사원 아틀리에의 이미지 이해 기술은 AI가 입력된 이미지에 대해 사람처럼 자연스럽게 설명하는 것을 넘어 엑사원 언어모델과 결합해 사용자가 원하는 태스크까지 수행할 수 있다”면서 “대화형 AI가 어떤 제품에 대해 텍스트로 자세하게 설명하면 마케팅 문구를 생성하는데, 엑사원 아틀리에는 텍스트 설명 없이 한 장의 이미지와 사용자의 요청만 넣어주면 이미지 이해 기술을 통해 원하는 요청을 손쉽게 수행한다”고 설명했다.
실제로 김 랩장은 아틀리에가 마케팅 문구를 생성하는 것을 시연했다. LG생활건강의 화장품 이미지와 LG전자의 공기청정기 이미지를 아틀리에에 올리고 마케팅 문구를 생성해달라고 하자, 아틀리에는 해당 제품이 화장품인지 공기청정기인지 이해하고 여기에 맞는 마케팅 문구를 생성했다. 한 번 더 생성해달라고 하면 새로운 마케팅 문구를 생성했고, 해시태그도 달았다.
아틀리에는 마케팅 문구뿐 아니라 동화도 생성했다. ‘잔디밭에 앉아 있는 토끼’를 생성하라고 하자 해당 이미지를 만들었고, 이 이미지를 토대로 아이들이 좋아할 만한 창작동화를 만들어달라고 하자 금새 동화 이야기를 풀어냈다. 그동안 이런 기능을 하려면 텍스트 생성 AI 도구인 챗GPT와 이미지 생성 도구 미드저니 등을 교차해 사용해야 했는데, 엑사원 아틀리에는 두 가지 업무를 모두 빠르게 수행했다. 그만큼 AI 사용이 간편해진 것이다. 이러한 기능은 소셜네트워크서비스(SNS) 내에서도 유용하게 사용할 수 있을 것으로 전망된다.
LG AI연구원은 올해 3분기 내 그룹 내외부 전문 디자이너를 대상으로 엑사원 아틀리에 서비스를 시작할 예정이다. 배 원장은 “엑사원의 경쟁력은 전문성과 신뢰성”이라며 “실제 산업 현장에서 전문성과 신뢰성을 바탕으로 초거대 AI를 사업화해 성공한 사례는 적은데, 우리는 실제 산업 현장에서 생성형 AI가 의미 있게 사용될 수 있도록 달려갈 계획”이라고 강조했다.
- 김동원 기자 theai@chosun.com