감성 논하는 50여종 ‘챗봇’ 개발, 한국어 sLLM 모델도 오픈소스로 공개
-
인공지능(AI) 기술이 연구실을 벗어나 대중에게 확산되고 있다. 탐지·식별·분석·추론 등에 주로 사용됐던 AI는 생성형 기술 등장으로 쓰임새가 많아지면서 많은 사용자 수를 확보하고 있다. 챗GPT와 같은 서비스는 이미 많은 사용자 수를 기록 중이다. 본격적인 ‘AI 일상화’가 시작된 것이다.
그렇다면 AI가 일상이 된 지금, 우리들은 어떤 AI 기술을 사용하고 있을까. 챗GPT와 같은 대화형 AI 기술이 발전하면서 다양한 챗봇이 등장했지만 아직 국내에서 사용자에게 가장 익숙한 챗봇을 찾기 어렵다. 챗GPT 등 대화형 AI가 웹과 애플리케이션(앱) 등으로 제공되고 있지만, AI에 익숙하지 않은 사람들에게 친화적으로 다가오고 있지 않고, 국내에서 개발되는 챗봇은 대부분 기업간거래(B2B) 서비스로 이용되고 있어서다. 이 점을 봤을 땐 일반 사용자에게 챗봇의 문턱은 여전히 높다고 평가된다.
물론 이러한 챗봇의 문턱을 낮추고 있는 AI 기업도 존재한다. 대표적인 기업이 AI 스타트업 ‘튜닙’이다. 카카오브레인에서 자연어처리(NLP) 팀을 이끌었던 박규병 대표가 지난 2021년 3월 설립한 이 기업은 현재 약 50종의 챗봇을 데모 버전으로 공개했다. 사용자 대화를 토대로 사자성어로 대답하는 챗봇부터 연애 고민 해결 챗봇, 진지한 고민 해결 챗봇, 고양이 챗봇 등 종류도 다양하다. 심지어 백설공주, 곰돌이 푸, 빨간머리 앤 등 소설·만화 주인공인 챗봇도 있다. 이들 챗봇은 사용자에게 친숙하게 다가와 감성적으로 교류하며 새로운 친구가 되고 있다. AI 일상화의 단초 역할을 하고 있는 것이다.
사실 튜닙은 챗봇 외에도 AI 일상화에 기여하고 있는 기업이다. AI 연구기관 ‘일루더AI(EleutherAI)’와 함께 소형대규모언어모델(sLLM)의 일종인 ‘폴리글롯 한국어(polyglot korean)’ 개발에 참여했다. 일루더AI는 생성형 AI 대중화를 위해 상업용 오픈소스 개발에 기여하고 있는 비영리 기관이다. 이미지 생성 AI 모델 중 하나인 ‘스테이블디퓨전’을 만든 스테빌리티AI로부터 자원을 제공받았다. 폴리글롯 한국어는 한국어에 특화된 상업용 오픈소스 모델이다. 소유권 문제없이 자유롭게 활용할 수 있다. 생성형 대화 모델에 관심이 있던 튜닙은 해당 기술 개발에 직접적으로 참여해 누구나 쉽게 생성형 모델을 개발할 수 있도록 AI 일상화에 기여했다. 이외에도 윤리성 판별 모델을 개발, 응용프로그램인터페이스(API)로 제공해 AI 챗봇들이 편향 오류 등을 저지르지 않도록 지원하고 있다.
그렇다면 튜닙의 챗봇은 윤리 문제없이 사용자와 자유롭게 소통할 수 있을까. 또 메타 등 글로벌 기업이 선제적으로 장악하고 있는 sLLM 시장에서 한국 AI 스타트업은 어떤 경쟁력을 가져갈 수 있을까. 자세한 내용을 알기 위해 성남 판교에 있는 튜닙 사무실에서 박규병 대표를 만났다.
-
- 현재 서비스하고 있는 챗봇은 무엇인가.
“현재 데모 서비스로 제공하고 있는 챗봇이 50종류 되고, 내부적으로 개발·검토하고 있는 챗봇까지 합치면 100여 종 정도 된다. 챗봇은 사용자 대화 의도에 맞춰 종류별로 구성돼 있다. 사용자는 챗봇과 대화하는 의도가 다 다를 수 있다. 재미를 위해 혹은 고민 상담을 위해, 직장에서의 문제를 토로하기 위해, 연애 상담을 위해 등 다양한 목적을 갖고 챗봇과 대화한다. 우리는 그 목적에 맞춰 챗봇을 만들었다. 직장에서의 문제를 이야기하는 챗봇을 예로 들면 박부장 챗봇, 김차장 챗봇, 최과장 챗봇부터 이사원 챗봇, 강인턴 챗봇 등 직책별로 대화 대상이 있다. 직장에서의 고민은 연차, 직급마다 다 다른데 이러한 챗봇은 각 직급에 맞춰 고민을 상담하고 대화할 수 있게 구성됐다. 사용자가 자기가 하고 싶은 특정 챗봇 대상을 골라 대화할 수 있는 것이다.”
- 크게 어떤 종류의 챗봇이 있을까.
“우리 챗봇 서비스는 현재 웹과 애플리케이션(앱)으로 서비스되는 ‘디어메이트’ 플랫폼에서 제공된다. 이 플랫폼의 내부 카테고리는 크게 △디어펀(DearFun) △디어멘토(DearMentos) △디어프렌즈(DearFriedns) △디어캐스트(DearCast) △디어캐릭터(DearCharacters) △디어그레이츠(DearGreats) △디어코치(DearCoaches) △디어CS(DearCS) △디어디텍터(DearDetectors) 등으로 구성됐다. 디어펀은 말 그대로 사용자의 재미를 위한 챗봇이다. 무서운 주제의 대화만 하거나 사자성어로 답하는 챗봇이 있고 소설을 써주는 챗봇, N행시를 하는 챗봇 등이 있다. 디어멘토는 고민, 연애 등을 상담하는 챗봇이다. 스님인 챗봇부터 진지한 챗봇 등이 있다. 디어프렌즈는 친구가 되어 주는 챗봇이고, 디어코치는 맛집, 독서, 술, 가족 등 분야별 조언을 해주는 챗봇이다. 디어캐스트와 캐릭터는 사용자가 어떤 드라마나 영화, 웹툰의 등장인물이 되어 롤플레잉을 할 수 있는 챗봇이다. 여기서는 연극의 역할극처럼 내가 다른 사람이 되어 그 사람의 입장을 생각해볼 수 있는 환경을 제공한다. 디어CS는 AI콜센터에 전화해서 이야기하는 상황을 체험해 볼 수 있는 경험을 선사해준다. 디어디텍터는 사용자 발화 내 포함된 혐오 표현이나 개인정보를 탐지한다.”
- 일반 소비자에게 친숙한 환경을 제공해주는 챗봇 같다.
“맞다. AI 기술이 많이 발전했지만, 아직 실제 사용자에겐 어색할 수 있다. 챗GPT도 처음 나왔을 때는 낯설지 않았는가. 이제 6개월 정도 되면서 모두가 친숙해졌는데, 이처럼 하나의 기술에 친숙해지기까지는 몇 개월의 시간이 필요한 것 같다. 마찬가지로 우리가 제공하는 페르소나 기법(인격을 가진 챗봇)도 낯설게 느껴질 수 있다. 따라서 사용자가 이러한 챗봇들과 친해질 수 있는 환경이 필요하다고 생각했다. 디어플랫폼에서 여러 챗봇을 베타서비스로 제공하는 것도 이 때문이다. 사용자가 AI 챗봇에 익숙해질 수 있도록 맛보기로 새로운 챗봇들을 계속 신축해 제공하고 있다.”
- 전문적인 내용이 아닌 사용자 친화형 챗봇을 개발한 이유는.
“챗봇은 아직 조심스러운 부분이 있다. 챗GPT도 할루시네이션(환각) 현상이라고 해서 사실과 다른 내용을 얘기하는 모습을 볼 수 있다. 우리가 만든 모델도 지식은 있지만 늘 맞는 얘기를 하는 것은 아니다. 항상 정답을 제공하는 모델은 아니므로 전문적인 내용을 전달하는 부분보단 감성적인 부분을 하는 것이 좋다고 생각했다. 인간도 이성과 감성 능력이 있다. 이성적인 역할을 하는 챗봇이 있으면 감성 역할을 하는 챗봇도 있어야 한다고 믿는다. 우리는 감성적인 챗봇이 할 수 있는 역할을 고민하고 새로운 가치를 창출해나갈 것이다.”
-
- 일반 소비자에게 제공되는 챗봇은 편향 등 여러 문제를 발생시킬 수 있고, 실제 문제된 사례도 있다. 보호조치는 취하고 있나.
“AI는 확률 모델이다. 생성형 모델도 답을 할 때 가장 가능성이 높은 답을 찾는다. 이런 부분에서 우리는 데이터를 만들 때 비윤리적인 부분을 필터링했다. 우리는 개인정보를 식별하는 엔진 등 자체적인 엔진이 있기 때문에 편향된 결과를 낼 수 있는 데이터를 먼저 걸러낸다. 챗봇은 말을 생성하는 부분이다 보니 엔진이 답을 낼 때 제어할 수 있는 부분도 중요하다. 이에 우리는 챗봇의 발화하는 부분을 한 번 더 검증한다. 발화 과정에서 문제가 생기지 않는지 한 번 더 검토한다고 보면 된다. 여기에 또 하나가 더 있다면 우리는 챗봇을 학습하는 과정에서 일부러 이상한 발화를 넣고 어떻게 대답하는지를 평가한다. 예를 들어 사용자가 엄한 소리를 하면 ‘왜 그런 말을 하냐’는 식의 데이터를 일부러 넣고 챗봇이 어떻게 답하는지 평가한다. 혹시 모르는 데이터가 있어도 바른말을 할 수 있게 조치하는 것이다. 이처럼 우리는 2, 3중 레이어로 윤리 문제를 해결하고 있다.”
- 자체 엔진이 무엇인지 정확히 듣고 싶다. 신조어로 인한 문제도 해결할 수 있나.
“이 엔진도 판별을 하는 하나의 AI 모델이라고 볼 수 있다. 사실 기존 엔진들도 욕이나 문제가 되는 용어는 잘 거른다. 게임 채팅방에서도 이러한 대화를 거르는 모습을 자주 볼 수 있지 않은가. 문제는 편향적인 내용이다. 예를 들어 김치에 관한 이야기를 할 때 김치는 문제가 되는 단어는 아니지만 ‘김치녀’는 편향적인 문제를 낼 수 있는 말이다. 이러한 단어를 거르는 것은 쉽지 않다. 쓰레기도 이중적인 의미가 있다. 우리는 이러한 의미를 단어가 아닌 문맥으로 파악하는 엔진을 갖고 있다. 이러한 엔진은 API로 제공하고 있다. 뤼튼테크놀로지스에 제공된 모델도 우리 엔진이다.”
- 챗봇도 자체 기술로 개발했나. 빅테크 기업의 대형언어모델(LLM) 등을 활용했나.
“디어캐릭터와 디어그레이츠는 챗GPT API를 이용해 개발했다. 나머지는 우리가 직접 개발한 치타라는 자체 모델을 활용했다.”
- 최근 중소기업과 스타트업도 LLM을 만드는 추세다. LLM을 만들 계획은 있는가.
“우리는 LLM의 소형 모델인 sLLM을 만들었다. 상업용 오픈소스 모델로는 국내 처음이다. 구글, 오픈AI 등의 기업들은 아주 큰 모델을 만들어 시장 헤게모니를 쥐려고 하고 있고, 그 사이에 LLM보다 작은 sLLM을 목표로 하는 기업이 있다. LLM은 AI 발전에 무척 중요한 역할을 하지만, 큰 모델이 하는 역할이 있고 또 작은 모델이 하는 역할이 있기 때문이다. 현재 영미권에서는 100여 개의 sLLM 모델이 나왔다. 메타가 대표적으로 sLLM에 관심을 두고 있는 기업이다. 현재 상업용으로 사용할 수 있는 한국어 sLLM 모델 중 가장 높은 성능을 가진 모델은 폴리글롯이다. 이 모델은 튜닙과 일루더AI가 함께 만든 제품이다.”
- sLLM을 개발한 이유가 있는가.
“창업을 하면서 페르소나 기반의 챗봇을 만들기 위해선 LLM을 만들어야 한다고 생각했다. 하지만 스타트업이 LLM을 만들기엔 자본과 시간이 따라가지 못했고 빅테크 기업과의 경쟁도 되지 못했다. 오히려 sLLM이 더 경쟁력이 있다고 보았다. 하지만 sLLM도 스몰이라는 단어를 사용할 뿐이지 상당히 큰 모델이다. 스타트업 혼자서 만들긴 어려웠다. 데이터를 모으고 기술력을 갖추는 건 자체적으로 할 수 있었지만 그래픽처리장치(GPU) 등 자원 부분은 감당하기 힘들었다. 따라서 일루더AI와 함께 하게 됐다. 우리가 자체적으로 모든 자본을 들여 만든 것이 아니기 때문에 오픈소스로 공개했다.”
-
AI 산업이 오픈소스 문화로 빠르게 성장한 것은 맞다. 하지만 오픈소스에 기여하는 기업이 있고 이용만 하는 기업이 있는데, 이 점을 봤을 땐 모범 사례인 것 같다.
“오픈소스를 연구용으로 사용할 수 있게 기여하는 기업은 있다. 순수한 목적으로 기여하는 곳도 있고 홍보나 전략적인 목적을 갖고 기여하고 있는 곳도 있다. 우리는 모델을 개발하는데 있어 데이터와 기술만 제공했고, 자원은 일루더AI를 활용했으니 오픈소스로 공개하는 것이 옳다고 보았다. 물론 홍보 등도 생각했다. 현재 오픈소스로 공개한 모델이 많이 활용되고 있다는 것을 느낀다. 이 점을 봤을 때 오픈소스 생태계에 기여했다는 자부심을 느낀다.”
- 챗GPT 열풍이 꺼지고 있단 얘기도 들린다. 챗봇 열풍도 일시적일 수 있단 생각이 드는데.
“챗GPT 열풍은 벌써 꺼졌다는 얘기도 있고, 사용자 수가 급감했단 얘기도 있다. 개인적으로 챗봇 시장은 작아질 것이란 생각을 하지 않는다. 왜냐하면 챗봇은 달리 생각해 보면 대화라는 포맷을 빌린 것이다. 카카오톡을 생각해 보자. 그전에도 메신저나 커뮤니티가 있었지만 기존에는 일방향성, 비동시성이 주였다. 하지만 카카오톡은 동시성과 양방향 소통이라는 대화가 가능하게 해 크게 성공할 수 있었다. 카카오톡 전에는 문자라는 메신저가 있었고 이전에는 삐삐, 편지가 있었다. 이러한 대화라는 포맷은 인간이 죽을 때까지 계속될 것이다. 따라서 형태는 달라질 수 있겠지만, 대화 자체는 지속될 것이다. 카카오톡의 인기는 줄어들 수 있겠지만 대화하는 커뮤니케이션은 계속된다는 뜻이다. 따라서 챗봇도 기술 발전이 계속 증가하면서 모양이 달라질 뿐 인기는 계속될 것이라고 본다. 로봇이 대화하고 가상인간이 대화하는 것도 다 챗봇 아닌가.”
- 챗봇 열풍으로 관련 서비스를 내놓는 기업도 많아졌고, 대기업도 진출하고 있다. 경계되지 않는가.
“경계한다고 해결될 일이 아니다. 사실 그런 서비스가 많이 나왔으면 좋겠다. 시장이 커지고 외연이 커져야 전체적으로 성공할 수 있다. 그 와중에 스타트업은 스타트업의 포지션이 있고 대기업은 또 대기업의 포지션이 있다고 생각한다. 지금은 서로 경계할 때가 아니라 시장 흐름 자체를 크게 만들어야 한다. 지금 이 거대한 시장을 한 기업이 독자적인 기술로 모두 가져갈 수 있다곤 생각하지 않는다. 스타트업도 자체 모델을 개발하는 곳도 있고 어떤 곳은 API를 가져다가 응용하는 기업도 있다. 각자의 전략이 있는 것이다. 이 부분에 대해 갑론을박이 있는데, 다 유효한 전략이라고 생각한다. 함께 좋은 시장을 만들어갔으면 좋겠다.”
- 향후 계획은 무엇인가.
“디어메이트 내 더 다양한 챗봇들을 선보이고 성능을 고도화하는 데 집중하고 있다. 당장의 수익화보다는 여러 기업, 여러 서비스에 접목해(우리는 이것을 분양이라 표현한다) 사용자들이 다양한 플랫폼과 서비스에서 튜닙의 챗봇들을 만나볼 수 있게 하는 데 주력할 계획이다.”
- 김동원 기자 theai@chosun.com