데이터 구축 사업에서 AI로 사업 다양화
데이터 경험으로 ‘AI 실질적인 지원군’ 자신
-
데이터 강자 ‘크라우드웍스’가 인공지능(AI) 전쟁터에 참전했다. 그동안 데이터 구축 사업 경험을 필두로 대형언어모델(LLM), AI 옵스, 레드팀 등 다양한 깃발을 꽂아나가겠단 전략이다. “기초는 다 쌓아놨다. 이제 우리의 역량을 폭발적으로 보여주겠다”는 포부다.
김우승 크라우드웍스 신임 대표는 지난 4일 서울 강남구에 위치한 사무실에서 기자와 만나 AI 시장 공략을 자신했다. 취임 4일 차를 맞이한 그는 회사가 가진 강점을 바탕으로 정말 AI를 잘하는 기업이 어떤 모습인지를 직접 보여주겠다고 자부했다. “크라우드웍스는 데이터 라벨링 회사로 많이 알려져 있다”며 “하지만 내부를 자세히 들여다보면 데이터를 시작으로 AI 모델 제작을 지원하는 AI 옵스, 교육, LLM 등 AI 관련 사업을 모두 잘하는 회사”라고 소개했다. 이어 “앞으로 우리가 가진 강점을 살려 데이터 라벨링 회사가 아닌 AI 기업으로서 위상을 높이겠다”고 자신했다.
◇ 데이터 라벨링 전문성, ML옵스로 확장
김우승 대표의 말처럼 크라우드웍스는 데이터 라벨링 회사로 유명하다. 텍스트나 이미지, 영상 등의 데이터를 AI가 학습할 수 있도록 가공하고, 목적에 맞춰 입력하는 사업으로 이름을 떨쳐왔다. 사실 데이터 라벨링은 디지털 분야 ‘인형 눈 붙이기’라고도 불리는 사업이다. 데이터에서 AI가 학습할 수 있도록 표시하고 이를 가공하는 작업이 단순·반복되기 때문이다.
김 대표는 인형 눈 붙이기란 표현은 데이터 라벨링 분야에서 오해를 사는 분야라고 해명했다. 인형 눈 붙이기로 불렸던 시기는 과거 고양이와 강아지를 분류하는 초창기 AI 모델이고, 지금 데이터 분류 사업은 상당히 세분화하고 어려워졌다고 설명했다. LLM 발전으로 라벨링하는 데이터양이 상당히 증가했고, 탐지해야 하는 분야 역시 다양해져서다. 이미지로 예로 들면 과거에는 자동차, 기차 등만 탐지하면 됐지만, 현재 AI 모델은 자동차가 어떤 브랜드이고 어떤 모델인지 등을 다다르게 분류해야 활용할 수 있다.
크라우드웍스는 그동안 데이터 라벨링 분야에서 경쟁력을 가져가기 위해 데이터 라벨링 사업에 전문성을 더해왔다. 요구사항이 들어오면 어떻게 라벨링하면 좋은지를 분석하고 가이드라인을 만들었다. 이후 라벨링 직원들을 교육하고 시험을 봐 통과한 사람을 기준으로 라벨링 작업을 수행해왔다. 고객사가 요구하는 AI 모델을 잘 만들 수 있도록 데이터 구축 방법과 라벨링 작업을 고민하고, 계획을 세워가며 교육도 진행했다. 이 과정에서 회사는 AI 기본인 데이터 구축부터 AI 실제 활용에 관한 노하우를 쌓았다. 데이터 라벨링 작업 요청은 제조, 의료, 금융, 서비스업 등 모든 업종에서 들어왔기 때문에 전 산업의 AI 구축과 활용을 경험했다.
김 대표는 “그동안 크라우드웍스가 한 사업은 단순 데이터 라벨링이 아니었다”면서 “넓은 의미로 보면 모든 산업의 ML옵스를 진행해왔다”고 소개했다. 이어 “데이터 작업을 하면서 이러한 체계를 가진 기업은 국내에 별로 없고, 해외에도 많을 것 같지만, 흔치 않다”면서 “우리는 이러한 강점을 바탕으로 AI 사업 저변을 넓혀가겠다”고 했다.
-
◇AI 구축 지원부터 sLLM까지… 진정한 ‘AI 지원군’ 자신
김 대표는 앞으로 크라우드웍스를 기업의 AI 지원군으로 만들어갈 방침이다. 기본적인 모델부터 LLM 기반 생성형 모델까지 기업이 도입하고자 하는 AI 모델을 실질적으로 지원할 방침이다. 지금까지 크라우드웍스가 데이터 구축 사업에 머물러 있었다면, 이전 AI 사업에 본격 진출하겠다고 밝혔다.
김 대표는 크라우드웍스는 AI 지원을 잘할 수 있는 핵심 역량을 갖추고 있다고 자신했다. 디지털 라벨링 사업을 하면서 모든 회사의 AI 사업을 다 알고 있어서다. LLM 역시 마찬가지다. 크라우드웍스는 사업 초기부터 네이버가 투자한 회사다. 네이버가 만든 초거대 AI ‘하이퍼클로바X’ 등의 데이터 구축 사업에 참여했다. 기업들이 하이퍼클로바X 도입을 원할 때 이를 지원하는 역할도 해왔다. 네이버 파트너사의 LLM 도입 실증 사업을 20곳 넘게 진행했다. LLM 도입 지원을 전반적으로 지원하는 경험을 보유한 만큼, 이 분야에 강점이 있다는 게 그의 설명이다.
김 대표는 “한국어뿐 아니라 한국 정보와 문화 등이 충분히 잘 학습된 LLM 모델은 네이버 하이퍼클로바X”라며 “우리는 네이버 파트너로서 하이퍼클로바X를 도입하고자 하는 기업이 있으면 함께 실증을 지원하는 역할을 해왔다”고 말했다. 이어 “올해부터는 이 사업을 더 확장해 AI 컨설팅과 모델 구축, 데이터 라벨링 등 모든 업무를 지원하겠다”고 밝혔다.
크라우드웍스는 기업의 AI 지원을 강화하기 위해 소규모대형언어모델(sLLM)도 개발하고 있다. 각 기업에서 필요한 분야에 전문적으로 AI를 사용할 수 있게 하기 위해서다. 김 대표는 “기업들이 자체 기업용으로 사용할 수 있는 작은 규모의 LLM을 요구하고 있다”며 “기업의 전문 분야가 있는 만큼 범용 모델을 활용할 수 없기 때문”이라고 말했다. 이어 “기업용 LLM을 만들기 위해선 데이터 구축과 분석부터 크고 작은 작업이 들어가는데, 크라우드웍스는 이 분야에 전문성이 있는 만큼 앞으로 고객이 원하는 AI 에이전트 등의 모델을 계속 제공할 것”이라고 밝혔다.
크라우드웍스는 회사 내부적으로도 sLLM을 구축할 예정이다. 또한 의료 AI 계열사인 ‘닥터웍스’에서도 의사 친화형 sLLM 모델을 만들 계획이다. 현재 의사들이 생각하는 페인 포인트(Pain point·불편한 지점)를 반영한 sLLM을 만들어 의사의 업무 효율을 개선해나갈 방침이다
◇ “AI 윤리 문제, 데이터 전문 기업으로서 해결사 자청”
김 대표는 기업간거래(B2B) 시장을 넘어 기업과소비자간거래(B2C) 시장도 염두하고 있다. B2C 사업을 하는 기업에는 AI 윤리가 중요한 사항이므로, 데이터 전문성을 기반으로 이 문제를 해결할 역량을 제공할 예정이다.
그동안 AI 기업에게 B2C 서비스는 어려운 과제였다. 대중을 대상으로 문제를 일으킬 가능성이 있어서다. 일례로 마이크로소프트(MS)는 MS는 2016년 3월 23일 트위터에 ‘테이’라는 AI 챗봇을 소개했지만, 16시간 만에 중단됐다. 테이가 사람들과 트윗을 주고받는 과정에서 차별적이고 폭력적인 대화를 했기 때문이다. 국내에서도 AI 챗봇이 문제를 일으킨 사건이 있었고, 현재 대중에게 소개된 생성형 AI도 할루시네이션 문제 등을 일으켜 화제가 됐다.
이를 방지하기 위해 기업들은 ‘AI 레드팀’을 구축하고 직원이 지속 모니터링하며 피드백을 하고 있다. 사용자가 나쁜 의도를 갖고 질문하면 대답하지 않는 방식으로 모델을 고도화하고 있다. 하지만 AI가 나쁜 말을 하도록 의도적으로 답을 유도하는 문제가 발생 중이다.
김 대표는 현재 이러한 B2C 시장의 상황을 보며 크라우드웍스가 할 수 있는 일을 찾고 있고 밝혔다. 데이터 분야에 강점이 있는 만큼, 윤리적으로 문제 되지 않는 데이터를 갖춰 B2C 시장을 공략할 계획을 하고 있다. 그는 “언어 모델 기업들은 여러 문제가 예상되는 B2C 시장을 꺼려 하는 경우가 있지만, 결국 AI는 B2C 시장으로 확대될 가능성이 크기 때문에 이 시장에 안정적으로 정착할 방안을 고민하고 있다”면서 “현재 레드티밍 등 다양한 LLM 검증 방법을 제공하고 있다”고 말했다.
김우승 대표는 삼성전자, SK텔레콤, SK플래닛 등을 거친 정보통신기술(ICT) 전문가로 줌인터넷에 최고기술책임자(CTO)로 합류해 대표이사까지 역임하며 2019년 코스닥 상장을 이끌었다. 지난 2021년부터는 대교에 최고디지털책임자(CDO)로 영입돼 디지털 전환 관련 사업을 담당했고, 동시에 대교와 메가존클라우드 합작사 디피니션 대표를 겸직했다.
그는 “크라우드웍스가 또 다른 성장을 준비하고 있는 가운데, 회사에 합류하게 돼 기쁘다”며 “개발자와 전문 경영인으로 근무한 경험을 바탕으로 기술적인 부분을 강화하고 AI 사업에 속도를 내겠다”고 말했다. 이어 “앞으로 크라우드웍스는 데이터 라벨링 회사가 아닌 AI 기업으로서 입지를 공고히 할 것”이라며 “기초를 탄탄히 쌓아놨으니 올해부터 본격 날아오를 준비를 하겠다”고 강조했다.
- 김동원 기자 theai@chosun.com