KAIST, 인간처럼 상상할 수 있는 AI 개발
안성진 교수 연구팀·구글 딥마인드·미국 럿거스대 공동연구
안성진 한국과학기술원(KAIST) 전산학부 교수 연구팀이 구글 딥마인드, 미국 럿거스 대학교와 국제 공동 연구를 통해 인간의 시각 지식을 체계적으로 조합해 새로운 개념을 이해하는 인공지능(AI) 모델과 프로그램을 수행하는 평가 방법을 개발했다고 30일 밝혔다.
상상력을 지닌 AI는 범용 인공지능(AGI)을 구현하는 데 핵심이 될 것으로 보인다. 사람처럼 ‘노란 포도'나 `보라색 바나나'와 세상에 없는 개념을 이해하고 상상할 수 있는 AI가 생긴셈이다.
챗GPT 등 생성형 AI가 빠르게 발전하고 있다. 대형언어모델(LLM)로 사람의 언어 능력을 대규모멀티모달모델(LMM)로 사람의 청각과 시각 능력을 흉내 내고 있다. 현재 AI는 사람처럼 문장과 음성, 그림을 이해하고 생성해 보고 듣고 말할 수 있는 수준까지 발전했다.
하지만 아직까진 학습하지 않은 개념을 상상하는 인간의 상상력은 흉내낼 수 없는 한계로 여겨졌다. 인간은 `보라색 포도'와 `노란 바나나' 같은 개념을 학습하고, 이를 분리한 뒤 재조합해 `노란 포도'나 `보라색 바나나'와 같이 본 적 없는 개념을 상상하는 능력이 있다. 이런 능력은 기존의 개념을 분리하여 체계적으로 조합해 새로운 개념을 이해하는 것으로 체계적 일반화 혹은 조합적 일반화라고 불린다. 범용 인공지능을 구현하려면 이러한 능력이 필요하다.
체계적 일반화 문제는 1988년 미국의 저명한 인지과학자 제리 포더(Jerry Fodor)와 제논 필리쉰(Zenon Pylyshyn)이 인공신경망이 이 문제를 해결할 수 없다고 주장한 이후, 35년 동안 인공지능 딥러닝 분야에서 큰 도전 과제로 남아 있다. 이 문제는 언어뿐만 아니라 시각 정보에서도 발생하지만, 지금까지는 주로 언어의 체계적 일반화에만 초점이 맞춰져 있었고, 시각 정보에 관한 연구는 상대적으로 부족했다.
안성진 교수가 이끄는 국제 공동 연구팀은 시각 정보에 대한 체계적 일반화를 연구할 수 있는 AI 모델과 평가 방법을 개발했다. 시각 정보는 언어와는 달리 명확한 `단어'나 `토큰'의 구조가 없어, 이 구조를 학습하고 체계적 일반화를 달성하는 것이 큰 도전이다. 원본 이미지와 이를 변형한 이미지 세트로 주고 어떻게 바뀌었는지 AI가 스스로 찾게 하는 과정이다.
안성진 KAIST 교수는 “시각 정보의 체계적 일반화가 AGI를 달성하기 위해 필수적인 능력”이라며 “이 연구를 통해 AI의 추론능력과 상상능력 관련 분야의 발전을 가속할 것으로 기대한다”고 말했다.
찰라 걸셔(Caglar Gulcehre) 딥마인드의 책임 연구원 겸 스위스 로잔연방공과대학교(EPFL)의 교수는 “체계적 일반화가 가능해지면 현재보다 훨씬 적은 데이터로 더 높은 성능을 낼 수 있게 될 것이다”라고 설명했다.
이번 연구는 내달 10일부터 16일까지 미국 뉴올리언스에서 열리는 제37회 신경정보처리학회(NeurIPS)에서 발표될 예정이다.