-
최근 대형언어모델(LLM, Large Language Model)을 활용한 흥미로운 실험 중 하나는 수능 문제 풀이였다. 결과는 놀라웠다. LLM은 상당수의 문제를 정확히 풀어내며 마치 사람처럼 사고하는 것처럼 보였다. 이러한 기술적 발전을 보고 ‘LLM이 인간처럼 생각하는 것 아니냐’는 의견도 나오고 있다. 하지만 이러한 성과가 인간적 사고를 의미하는지에 대해서는 좀 더 신중한 접근이 필요하다. 수능은 언어, 수리, 논리적 사고를 평가하기 위해 고안된 시험이다. 인간은 문제를 풀 때 배경지식, 경험, 맥락적 이해를 결합하여 사고하며, 틀리더라도 그 과정 자체는 개인적이고 창의적이다. 반면, LLM은 방대한 데이터 학습을 통해 특정 패턴과 문맥을 인식하고, 가장 가능성이 높은 답을 확률적으로 산출한다. 이러한 방식은 결과적으로 인간과 유사한 답안을 내놓을 수 있지만, 본질적으로 인간의 사고와는 다르다.
LLM의 수능 문제 풀이 성공 사례는 그저 기술의 우수함을 보여주는 것이지, 인간적인 사고를 증명하지는 않는다. 예를 들어, 언어영역 문제를 푸는 데 있어 LLM은 문장의 구조와 패턴을 분석해 답을 도출한다. 그러나 그것이 문학 작품의 감동이나 출제자의 의도를 이해해서 답을 내놓는 것은 아니다. 이 과정은 사고라기보다는 고도로 정교한 데이터 처리라고 볼 수 있다. 이러한 점을 고려할 때, LLM은 인간처럼 ‘생각’하는 것이 아니라 인간적 사고를 모방하는 데 매우 능숙하다고 보는 것이 더 타당하다. 그것은 인간이 만들어낸 방대한 지식의 집합체를 활용해 답을 제시할 뿐, 그 과정에서 자율적이고 독창적인 사고를 하지 않는다.
가령, LLM은 ‘사랑이란 무엇인가?’라는 질문에 감동적인 답변을 제공할 수 있지만, 그것은 자신이 사랑을 경험하거나 이해해서가 아니다. 데이터셋 내 사랑에 관한 다양한 문장을 분석해 가장 적절해 보이는 답을 생성했을 뿐이다. 이런 과정은 인간 사고와는 본질적으로 다르다. 인간은 사랑을 감각적으로 경험하고, 그 경험을 바탕으로 사고를 확장하지만, LLM은 정해진 데이터 내에서만 작동한다.
이러한 사실은 최근에 오픈AI에서 공개한 새로운 벤치마크 데이터셋인 간단한 질문 응답(SimpleQA)에 대한 LLM 모델들의 성능에서도 확인할 수 있다. 어려운 수능 문제도 풀어내는 LLM 모델들이 타이타닉호가 침몰한 연도나 프랑스의 수도, 태양계의 행성이 몇 개인지 물어보는 단순한 문제에서 40%도 안 되는 정답률을 보이고 있다. 이러한 낮은 정답률은 주어진 지문에서 답을 찾는 수능 문제와 달리 명시적인 정보를 추출해야 하는 SimpleQA 벤치마크의 특성으로 인해 나타나며, 텍스트 기반의 암묵적 관계를 학습한 LLM이 데이터베이스처럼 구조화된 데이터에서 명확한 정보를 추출하는 작업에는 아직 적절하지 않다는 것을 보여주고 있다.
그럼에도 LLM이 인간처럼 ‘생각’한다는 인상을 주는 이유는 우리가 언어를 사고와 긴밀히 연결 짓기 때문이다. 언어는 인간 사고를 외부로 드러내는 주요 도구로, LLM의 언어적 성과는 마치 그것이 인간과 유사한 사고를 한다는 착각을 불러일으키게 한다. 그러나 이 착각은 LLM이 사고하는 능력을 갖췄기 때문이 아니라, 인간 언어의 복잡한 패턴을 모방하는 데 매우 능숙하기 때문이다.
예를 들어 SimpleQA 벤치마크를 풀기 위해서 단순히 질문만을 던지는 것이 아니라 수능시험에서처럼 해당 질문에 대한 정답이 들어있는 위키피디아 페이지의 내용을 같이 제공했다면 LLM은 수능에서와 마찬가지로 거의 모든 문제에 대해서 정답을 맞힐 수 있었을 것이다. 다시 말하면 수능 문제를 풀 때도 LLM 스스로 생각을 해서 답변을 했다기보다는 주어진 지문에서 질문에 해당하는 답변이 있을 가능성이 제일 큰 부분을 찾고 이를 이용해서 적절한 답변을 만드는 계산을 했다고 보는 것이 타당하다.
이러한 점을 고려할 때 LLM은 인간처럼 생각하는 것이 아니라 인간 사고의 표면적인 언어적 표현을 흉내 내는 데 매우 정교한 도구일 뿐이라는 점은 명확하다. 이러한 차이를 이해하는 것은 LLM의 성과를 인정하면서 이의 올바른 활용과 한계에 대한 책임 있는 논의를 위해서 필수적이다. 인간의 사고와 LLM의 계산적 과정 사이의 차이를 명확히 구분할 때 우리는 LLM이라는 새로운 기술을 더욱 효과적으로 사용할 수 있을 것이다.
- 장하영 써로마인드 대표 hyjang@surromind.ai