인더스트리

바이브컴퍼니, 한국어 생성 AI 모델 자체 개발

기사입력 2023.06.05 11:05
환각·보안 이슈 해결한 한국어 특화 LLM
  • 바이브컴퍼니가 한국어 전용 생성형 AI 모델  ‘바이브GeM’을 선보였다. /바이브컴퍼니
    ▲ 바이브컴퍼니가 한국어 전용 생성형 AI 모델 ‘바이브GeM’을 선보였다. /바이브컴퍼니

    인공지능(AI) 상장기업 ‘바이브컴퍼니’가 자체 개발한 생성형 언어모델 ‘바이브GeM(VAIV Generative Model for language)’을 선보였다. 한국어 고유 특성을 반영한 한국어 전용 생성형 AI 모델이다. 타 기업들이 오픈AI의 GPT 서비스를 연계한 한국어 모델을 선보인 것과 달리, GPT 연동 없이 자체 개발한 점이 특징이다.

    바이브컴퍼니는 지난 2일 인공지능·빅데이터 연구소 주관 기술 워크숍인 ‘바이브 테크데이’에서 바이브GeM과 뉴럴서치(신경망 검색) 기술과 언어생성 기술을 결합한 바이브 서치GPT를 공개했다. 뉴럴서치는 심층 신경망과 자연어처리(NLP) 모델을 활용한 검색 기술을 뜻한다. 기존 키워드 기반 검색 방식을 넘어 자연어를 이해하고 질문의 의도를 정확하게 파악해 사용자가 원하는 정보를 쉽게 찾을 수 있도록 돕는다.

    바이브컴퍼니는 이번 기술로 보안 이슈가 큰 공공기관이나 기업들의 생성형 AI 모델 적용을 지원할 수 있다고 밝혔다. 데이터 유출 등 보안 문제를 해결했고 챗GPT 등 언어생성 모델의 중 문제인 ‘환각(Hallucination)’ 현상을 개선했다고 설명했다. 환각 현상은 허언증처럼 맞지 않은 사실을 그럴싸하게 만들어내는 현상을 뜻한다.

    회사 측에 따르면 바이브 서치GPT는 답변의 근거가 되는 원문 데이터의 출처를 함께 제시해 환각 현상을 줄이고 답변의 신뢰성을 높였다. 또 보안 유출 문제를 줄이기 위해 온프레미스(사내 구축형) 형태로 서비스를 제공해 머신러닝(ML) 과정에서 데이터 외부 노출 위험을 줄였다. 경량화 모델로 제작돼 기존 대형언어모델(LLM) 보다 시간과 비용이 절약되는 것도 장점이다. 바이브GeM은 매개변수를 줄이고 미세조정으로 정확도를 높인 맞춤형 LLM으로, 머신러닝에 소요되는 비용과 시간을 줄였다. 

    바이브컴퍼니는 이번 모델에 대해 한국어 고유 특성을 잘 반영해 AI 학습을 진행한 한국어 특화 언어모델이라고 강조했다. 바이브컴퍼니 관계자는 본지와 통화에서 “대부분 한국어 특화 모델은 오픈AI 서비스를 탑재하고 응용한 모델이지만, 우리는 GPT 등의 서비스를 이용하지 않고 모델을 자체 개발했다”며 “우리가 20년 이상 비정형 데이터를 수집하고 분석하는 등 꾸준한 연구개발을 통해 다양한 빅데이터 분석 모델을 개발한 만큼, 이러한 경험을 담은 LLM 모델이라고 보면 된다”고 설명했다. 실제로 바이브컴퍼니는 2020년과 2022년 과학기술정보통신부가 주관하는 AI 학습용 데이터 구축 지원 사업을 성공적으로 마무리하고,  지난해 한국어 기계독해 성능 테스트인 코쿼드1.0(KorQuAD1.0)에서 국내 유수의 기업들을 제치고 1위를 차지하는 등 한국어 NLP 분야 기술력을 입증한 바 있다.

    바이브컴퍼니는 곧 뉴럴서치 서비스 ‘바이브 서치’도 곧 선보일 계획이라고 밝혔다. 사용자가 궁금한 질문을 문장 형태로 입력하면 정답이 있는 문서를 찾아줄 뿐만 아니라 바이브 서치GPT를 탑재해 답변을 단 몇 줄로 요약까지 해주는 검색 서비스다. 기존 키워드 기반의 검색 서비스와 달리, 사용자가 여러 문서를 찾지 않아도 한눈에 원하는 정답을 찾아준다는 특징이 있다. 이외에도 바이브GeM을 기반으로 시장의 수요에 맞는 △AI가 데이터의 수집, 분석부터 리포트까지 작성해주는 ‘바이브 리포트 코파일럿’ △AI 대화 솔루션 ‘바이브 챗봇’ △사용자가 원하는 뉴스를 선별해 요약해주는 ‘바이브 뉴스다이제스트(VAIV NewsDigest)’ 등 다양한 솔루션과도 결합해 제공할 계획이다.

    윤준태 바이브컴퍼니 인공지능·빅데이터 연구소 부사장(CTO)은 “우리 생성형 AI 언어모델을 활용하면 다양한 산업 도메인에서 적은 비용으로 각 기업, 기관들이 특화된 언어모델을 자체 구축할 수 있다는 장점이 있다”며 “바이브GeM을 지속 고도화해 법률, 금융 정보 같은 전문 분야 특화 모델도 선보일 계획”이라고 말했다.

최신뉴스