인더스트리

LG, 韓 AI 자존심 ‘엑사원3.0’ 오픈소스로 공개

기사입력 2024.08.07 15:31
LG AI연구원, 성능과 경제성 높인 ‘엑사원 3.0’ 발표
총 3개 모델 중 활용성 높은 경량모델, 연구 목적 오픈소스로 공개
메타·구글 동급 모델보다 성능 ↑… 생성형 AI ‘챗엑사원’ 함께 발표
  • 배경훈 LG AI연구원장은 엑사원 3.0 경량 모델의 오픈소스 출시 계획을 밝히며  “엑사원 3.0 중 가장 활용도가 높은 모델을 공개하는 것”이라고 말했다. /김동원 기자
    ▲ 배경훈 LG AI연구원장은 엑사원 3.0 경량 모델의 오픈소스 출시 계획을 밝히며 “엑사원 3.0 중 가장 활용도가 높은 모델을 공개하는 것”이라고 말했다. /김동원 기자

    한국 초거대 AI 자존심 ‘엑사원(EXAONE)’이 오픈소스로 공개됐다.

    LG AI연구원은 7일 최신 AI 모델 ‘엑사원 3.0’ 중 일부 모델을 오픈소스로 공개했다. 엑사원 3.0 모델 중 성능과 경제성에 있어 가장 활용도가 높은 ‘경량 모델’인 7.8B 언어모델을 오픈소스로 풀었다. 공개한 모델은 연구 목적으로 활용 가능하다.

    배경훈 LG AI연구원장은 기자와 통화에서 “엑사원 3.0은 총 3가지 모델이 있는데 그중 가장 활용도가 높은 모델을 공개하는 것”이라고 밝혔다. LG 내부용으로만 사용하던 엑사원을 오픈 모델로 전환하면서 기술과 비즈니스 이점을 포기하는 것은 아니냐는 질문에는 아니라고 선을 그었다. “AI 기술이 빠르게 발전하는 상황에서 학계, 연구기관, 개인들이 엑사원을 활용함으로써 연구 생태계 활성화에 작게나마 기여하기 위해 오픈소스 공개를 결정했다”며 “지금은 모델을 공개하는 것이 AI 생테계에 긍정적인 영향을 줄 수 있다고 판단했다”고 말했다.

    다만, 이 모델은 연구 목적으로 공개되는 것으로 상용 목적 활용은 어렵다. LG AI연구원 측은 “투자 문제 등으로 상용 목적 공개를 단독으로 의사 결정하긴 힘든 상황”이라면서 “상용 목적 활용은 저희한테 연락하면 된다”고 설명했다. 실제로 LG AI연구원 측은 이번 연구 목적의 오픈소스 공개도 쉽지 않은 과정을 거친 것으로 알려졌다. 한 관계자는 “내부적으로 설득하는데 적지 않은 노력을 했다”고 전했다.

    ◇ 엑사원, 활용성 더 커졌다… 성능과 경제성 모두 ↑

    엑사원은 세계에서 처음으로 양방향 멀티모달 기능을 탑재해 세상을 놀라게 한 AI 모델이다. LG AI연구원이 2021년 12월 처음 공개했다. 당시 공개된 엑사원 1.0은 일부 모델이 텍스트만 생성하고 일부 모델은 이미지만 생성하는 것과 달리, 텍스트와 이미지를 모두 생성하는 AI 모델로 주목받았다. 텍스트를 입력하면 이에 맞는 이미지를 만들어주고, 이미지에 대해 텍스트로 설명하는 것이 가능했다. 2022년 2월 미국 뉴욕에서 열린 ‘F/W 뉴욕 패션위크’에서는 엑사원으로 디자인한 옷이 소개돼 국내뿐 아니라 여러 해외 매체에 관련 소식이 전해지기도 했다.

  • LG AI연구원은 2021년 12월 엑사원 1.0을 처음 공개한 이후 계속 모델을 고도화해 왔다. /LG AI연구원 블로그 캡처
    ▲ LG AI연구원은 2021년 12월 엑사원 1.0을 처음 공개한 이후 계속 모델을 고도화해 왔다. /LG AI연구원 블로그 캡처

    LG AI연구원은 이후 ‘신뢰성’과 ‘전문성’을 고도화한 엑사원 ‘2.0’을 2023년 7월 발표했다. 이번 엑사원 3.0은 약 1년 만에 선보여진 모델이다. LG AI연구원 측은 “엑사원 1.0 공개 후 약 3년간 생성형 AI를 실제 산업 현장에 적용하기 위한 연구개발에 집중해 왔다”며 “이번 엑사원 3.0은 성능과 경제성을 모두 잡은 모델”이라고 설명했다.

    LG AI연구원에 따르면, 엑사원 3.0은 특허와 소프트웨어 코드, 수학, 화학 등 국내외 전문 분야 데이터 6000만건 이상을 학습했다. 실제 사용성에 집중했다고 볼 수 있다. 연말까지 법률, 바이오, 의료, 교육, 외국어 등 분야를 확장해 학습 데이터양을 1억 건 이상으로 늘려 성능을 높인다는 방침이다.

    경제성 역시 좋아졌다. 엑사원 3.0은 이전 모델인 2.0보다 추론 처리 시간은 56%, 메모리 사용량은 35% 줄였다. 구동 비용 역시 72% 절감했다. 연구원 측은 “AI로 인해 촉발된 소비 전력 문제를 해결하기 위해 경량화·최적화 기술 연구에 집중해 초기 거대 모델 대비 성능은 높이면서도 모델 크기는 100분의 3으로 줄였다”고 밝혔다.

    LG AI연구원은 여기에 안전성도 결합했다. AI 모델에 의도적으로 공격을 시도해 기술과 서비스 취약점을 검증하고 이를 보완하고 개선하는 레드티밍(Red-teaming)을 수행했다. LG AI연구원 측은 “우리는 AI를 실제 산업 현장에서 적용해 사용할 수 있는 점에 초점을 맞추고 있다”며 “우리가 추구하는 전문가 AI는 당연히 안전성과 신뢰성 역시 높아야 하기에 앞선 연구를 하고 있다”고 밝혔다.

    ◇ 메타·구글 동급 모델보다 성능 위… LG 계열사, 비즈니스 혁신 시작

    LG AI연구원이 이번에 공개한 엑사원 3.0은 총 3개의 모델 라인업으로 구성됐다. 온디바이스 AI에 들어갈 초경량 모델부터, 범용 목적의 경량 모델, 전문 분야에 특화하거나 깊이 있는 연구를 위한 고성능 모델이다. 참고로 이번에 오픈소스로 공개한 엑사원 3.0 7.8B 모델은 성능과 경제성 측면에서 활용도가 높은 모델로 꼽힌다.

    LG연구원은 이번에 엑사원 3.0을 발표하며 모델 학습 방법, 성능 평가 결과 등을 담은 기술 보고서(Technical Report)를 발표했다. 보고서에선 △MT-Bench △AlpacaEval-2.0 △Arena-Hard △WildBench 등 AI 모델의 대화 성능 등 실제 사용성을 종합적으로 평가(Real-world Use Cases)하는 대표적인 벤치마크(성능 평가 지표)와 함께 평가에 활용한 25개 벤치마크의 개별 점수와 각 영역별 평균 점수를 모두 공개했다.

  • 엑사원 3.0은 동급 오픈소스 모델 중 가장 높은 성능을 입증했다. /LG
    ▲ 엑사원 3.0은 동급 오픈소스 모델 중 가장 높은 성능을 입증했다. /LG

    보고서에 따르면, 엑사원 3.0은 실제 사용성을 비롯해 코딩과 수학 영역 등 13개 벤치마크 점수 순위에서 1위를 차지했다. 메타 라마 3.1, 구글 젬마 2 등 동일 크기 글로벌 오픈소스 AI 모델보다 수학, 코딩, 한국어 능력에서 모두 높은 점수를 기록했다.

    LG그룹은 엑사원 3.0을 토대로 비즈니스 혁신을 이어간다는 방침이다. LG 계열사들은 각 사가 보유한 데이터로 엑사원 3.0을 최적화(파인튜닝)하고, 사업과 제품, 서비스 특성에 맞게 이를 적용해 혁신 속도를 높여갈 계획이다. 그동안 LG 계열사들은 엑사원을 업무 곳곳에 사용한 것으로 알려졌다. 일례로 LG생활건강은 엑사원 2.0 아틀리에 플랫폼으로 고급 화장품 패키지와 추석선물세트를 디자인한 바 있다.

    LG AI연구원은 글로벌 파트너십 논의도 활발하게 진행 중이다. 배경훈 LG AI연구원장은 “실제 산업 현장에서 활용할 수 있는 AI를 만드는 것이 중요한만큼 특화된 성능과 경제성을 갖춘 엑사원으로 LG 계열사와 외부 기업 및 기관과의 파트너십을 강화해 나갈 계획”이라며 “국내에서는 처음으로 자체 개발한 AI 모델을 오픈소스로 공개해 학계, 연구기관, 스타트업 등이 최신 생성형 AI 기술을 활용할 수 있게 함으로써 개방형 AI 연구 생태계 활성화와 더 나아가 국가 AI 경쟁력을 높이는 데 기여하고자 한다”고 강조했다.

    ◇ 엑사원 3.0 기반 ‘챗엑사원’ 탄생… 챗GPT의 전문가 버전

    LG AI연구원은 엑사원 3.0을 기반으로 한 ‘챗엑사원(ChatEXAONE)’도 발표했다. 7일부터 임직원을 대상으로 챗엑사원 베타 서비스를 시작한다고 밝혔다. 챗엑사원은 △실시간 웹 정보 기반 질의응답 △문서, 이미지 기반 질의응답 △코딩 △데이터베이스 관리 등 업무 편의성과 효율성을 높일 수 있는 다양한 기능을 제공한다. LG 임직원은 검색부터 요약, 번역, 데이터 분석, 보고서 작성, 코딩까지 AI를 다양한 업무에 활용할 수 있다.

    챗엑사원은 실시간 웹 검색 결과를 활용하는 ‘검색증강생성(RAG)’ 기술을 적용해 임직원이 입력한 지시문(프롬프트)의 맥락을 파악한 뒤 최신 정보를 반영한 답변을 제공한다. LG AI연구원 관계자는 “생성형 AI는 입력하는 지시문 즉, 질문을 어떻게 하는지에 따라 다른 결과물을 생성한다”며 “관심 직무와 업무 특성에 맞는 질문, AI가 답변한 결과에 이어서 입력할 수 있는 질문 등을 추천해주는 기능도 개발해 적용함으로써 생성형 AI 이용에 익숙하지 않은 임직원들도 편하게 활용할 수 있게 했다”고 말했다.

  • 최신 오픈소스 모델과 엑사원 3.0 비교 결과. /LG
    ▲ 최신 오픈소스 모델과 엑사원 3.0 비교 결과. /LG

    챗엑사원은 일반 대중이 사용하는 챗GPT보다 업무 사용에 초점이 맞춰져 있다. 배경훈 LG AI연구원장은 기자와 통화에서 “챗엑사원은 엔터프라이즈 AI 에이전트로 챗GPT와 기능이 유사하지만, 내부 업무 활용에 더 초점을 맞췄다”며 “올해는 LG 내부 계열사에서 활용하며 기술을 검증한 후, LG유플러스와 LG CNS 등을 통해 외부 확산도 고려하고 있다”고 밝혔다.

    실제로 챗엑사원은 소프트웨어 개발자와 데이터 분석 전문가를 위한 기능도 제공한다. LG AI연구원은 챗엑사원이 자연어(사람이 일상적으로 사용하는 언어) 입력만으로 파이썬, 자바, C++ 등 22개 프로그래밍 언어와 데이터베이스 관리에 활용할 수 있는 SQL(구조화된 질의 언어, Structured Query Language) 쿼리까지 생성할 수 있어 임직원의 업무 효율성을 높일 수 있을 것으로 기대하고 있다.

    LG AI연구원은 연말까지 베타 서비스를 진행하며 임직원들의 의견과 아이디어를 반영한 업데이트를 주기적으로 시행하고, 정식 서비스와 모바일 앱은 LG 계열사별 준비 상황에 맞춰 순차적으로 제공할 예정이다. 사내 문서 학습 및 보안 데이터 관리가 필요한 계열사의 경우 지난 6월 LG디스플레이가 사내 문서 30만여 건을 추가 학습해 제품 품질 등 공정 관련 질의응답이 가능한 생성형 AI를 구축한 사례와 같이 별도의 특화 서비스 구축을 진행할 계획이다.

    한편, LG그룹은 엑사원 3.0 모델 3종 라인업과 챗엑사원 활용사례는 ‘LG AI 토크콘서트’에서 공개할 예정이다. LG 관계자는 “LG AI 토크콘서트에선 활용 중심에 맞춘 사례를 소개할 예정”이라며 “현재 언제 토크콘서트를 열지 날짜 등을 논의하고 있다”고 말했다.

최신뉴스