인더스트리

미디어젠, 한국어 대화 장기간 기억하는 AI 모델 개발

기사입력 2023.03.20 12:04
한국어 멀티세션 데이터 구축… 시간 간격 둔 대화도 챗봇과 소통 가능
  • 음성 인공지능(AI) 기업 ‘미디어젠’은 한국어 챗봇이 사용자와 장기간 소통할 수 있는 기반 기술을 개발했다고 20일 밝혔다. 챗봇이 사용자와 나눴던 이전 대화를 참고해 지속 소통하는 기술이다. 기존에는 단타성으로 끝났던 대화가 이제는 계속 이어지게 해 사용자는 챗봇이 자신을 잊지 않고 기억하고 있다는 인상을 받을 수 있다.

    미디어젠은 이번 기술 개발을 위해 한국어 멀티세션 데이터를 구축했다. 이번 사업은 과학기술정보통신부의 기금 사업으로 한국지능정보사회진흥원(NIA)이 추진하는 2022년 인공지능(AI) 학습용 데이터 구축 사업 일환으로 한국어 챗봇을 고도화하기 위해 진행됐다.

    미디어젠이 구축한 한국어 멀티세션 대화 데이터는 채팅 기반의 텍스트 데이터다. 구축 규모는 멀티세션 8만 개, 단일 세션을 기준으로는 22만 세션, 전체 발화는 308만 발화 수준에 해당한다. 멀티세션 대화란 시간 간격을 두고 여러 번 대화를 나눈 것을 뜻한다. 해당 데이터에서는 시간 간격을 두고 두 번, 세 번, 또는 네 번에 나눠 대화가 진행됐다. 이렇게 여러 번 대화를 나눈 멀티세션 대화 데이터는 이전 세션의 정보를 참고해 현재 세션의 대화에 반영하는 대화 모델을 개발하는 데 활용됐다.

    미디어젠은 이번에 구축한 한국어 멀티세션 대화 데이터를 기반으로 여러 AI 챗봇 서비스를 구현할 수 있다고 밝혔다. ‘독거노인들에게 안부를 묻고 건강 상태 체크하기’,‘ 자녀의 학교 숙제나 활동 여부를 확인하기’, ‘사용자와의 대화를 통해 문제를 해결하거나 제품·서비스를 안내하는 기능 제공하기’ 등 이전 대화 내용 반영이 필요한 분야에서 다양하게 활용될 수 있을 것으로 기대했다. 또 여러 기관이 개발하고 있는 한국형 챗GPT 개발에서도 대화 기억을 바탕으로 다양한 주제에 대한 자연스러운 대화하는 기능을 만드는 데 이바지할 수 있을 것으로 전망했다.

    사업 총괄 책임자인 윤종성 미디어젠 리더는 “외국 회사들의 알고리즘은 성능이 뛰어나지만 영어로 학습돼 있어 한국어 성능은 기대에 미치지 못하는 상황이었다”며 “이번 한국어 멀티세션 대화 데이터를 구축함으로써 연속된 대화를 기억하고 대화에 반영하는 한국어 챗봇 AI를 성공적으로 개발할 수 있었다”고 말했다.

최신뉴스