-
최근 몇 년간 AI는 눈부시게 발전해왔다. 하루에도 엄청난 양의 논문이 쏟아지고, 더 큰 모델이 공개되고 있다. 아울러 AI 모델이 학습 과정에서 계산하는 오차 지표인 ‘모델 손실(loss)’은 꾸준히 개선되고 있다.
◇ “성능은 올랐는데, 왜 비즈니스는 그대로인가?”
그런데 현업에서는 다른 이야기가 종종 들린다. “모델 성능이 좋아졌다고 했는데 매출은 왜 그대로일까요?”, “모델 예측 성능은 개선되었는데 왜 재방문율(retention)은 그대로일까요?”
이런 간극은 회사에서 만든 AI 모델이 비즈니스 목표와 제대로 정렬(alignment)되지 않은 데서 비롯된다.
대형언어 모델(LLM)의 발전 사례는 정렬이라는 개념을 직관적으로 보여준다. 지난 2020년 처음 공개된 GPT-3는 기술적 지표(모델 손실) 기준으로 매우 우수한 모델이었지만 대중의 반응은 제한적이었다. 반면 2년 뒤 공개된 GPT-3.5 기반의 ChatGPT는 전 세계적인 반응을 이끌어냈다.
◇ “‘어떤 방향으로 정렬되었는가’가 제품 임팩트를 좌우한다”
GPT-3.5의 정확한 스펙은 공개되지 않았지만, 많은 연구자들은 두 모델의 차이를 만든 결정적 요인으로 정렬을 꼽는다. GPT-3가 단순히 문장을 이어 쓰는 능력 자체에 집중했다면, ChatGPT는 사용자의 의도에 맞춰 대화하고 무례한 표현을 거르며, 이해하기 쉬운 응답을 제공하도록 정렬되었다. 즉, 모델의 정교함보다 그 능력을 어떤 방향으로 정렬했는가가 제품 임팩트를 결정지은 사례다.
정렬의 개념은 기업의 모든 AI 모델에 적용된다. 가령 ‘재방문율’을 핵심 지표로 삼은 숏폼 영상 서비스를 생각해보자. 흔히 저지르는 실수는 ‘시청 시간’ 예측에만 몰두하는 것이다. 시청 시간이 길어질 것으로 예측되는 영상을 우선 노출하면 당장은 지표가 좋아 보인다. 하지만 여기엔 함정이 있다. 모델은 시청 시간을 늘리기 위해 내용을 질질 끌거나 자극적인 낚시성 콘텐츠만 골라 추천할 수도 있다. 결과적으로 사용자는 피로감을 느끼고 오히려 앱을 떠나게된다. 예측 모델은 똑똑해졌는데 비즈니스는 망가지는 역설이다. ‘시청 시간 예측’이라는 기술적 목표와 ‘재방문율’이라는 비즈니스 목표가 정렬되지 않은 탓이다.
실제로 추천 시스템이 풀어야 하는 핵심 질문은 “이 콘텐츠를 지금 이 유저에게 노출하면 재방문율이 어떻게 변할까?”에 가깝다. 이를 제대로 예측하려면, 인과 추론이나 강화학습 같이 난이도가 높은 AI 기술을 필요로 하지만, 모델이 이 방향으로 정렬될수록 비즈니스 임팩트는 훨씬 더 선명하게 나타난다.
◇ “비즈니스 성장을 만드는 AI 모델의 조건”
결국 핵심은 이렇다. AI 모델이 비즈니스에 기여하지 못하는 원인은 예측력이 부족해서라기보다는, 모델이 향하고 있는 방향이 비즈니스 목표와 충분히 정렬되지 않았기 때문인 경우가 많다. 정렬이 부족했던 GPT-3는 연구자 중심 모델에 머물러 임팩트가 제한적이었던 것처럼, 회사에서의 AI 모델도 비즈니스 지표와 정렬되지 않은 상태에서는 아무리 모델 손실을 낮춰도 비즈니스 임팩트는 제한적일 수밖에 없다.
따라서 회사의 AI 모델이 기대한 만큼의 비즈니스 성과를 내지 못하고 있다면, 먼저 확인해야 할 것은 모델의 정교함이 아니라 비즈니스 목표와의 정렬 상태다. 정렬이 갖춰진 이후의 성능 개선은 학계의 최신 도구를 빌려 해결할 수 있지만, 우리 비지니스의 목표와 맥락에 맞게 모델을 정렬하는 것은 오직 그 기업만이 풀 수 있는 고유의 숙제다. AI 시대가 빠르게 변화할수록 중요한 것은, 우리의 AI 모델이 현재 어떤 목표를 향해 학습되고 있는지를 지속적으로 명확히 하는 일이다. 정렬이 우선이며, 그 위에서 이뤄지는 성능 개선만이 더 효율적인 비즈니스 성장을 가능하게 한다.
- 이준영 하이퍼커넥트 AI 조직 총괄 aidesk@chosun.com