내가 본 풍경을 AI가 다시 그린다, 뇌 읽는 기술 등장
fMRI로 본 뇌파, AI가 시각 이미지로 복원
AI 속 숨겨진 ‘기억’ 복원… 모델 파라미터만으로 데이터 재현

컴퓨터비전 분야 글로벌 석학인 미할 이라니(Michal Irani) 이스라엘 와이즈만 과학연구소 교수는 5일 KCCV 2025에서 AI가 사람의 뇌파만으로 머릿속 이미지를 그대로 복원하고, 딥러닝 모델 속에 숨겨진 ‘기억’까지 꺼내는 기술을 공개했다. /김동원 기자

인공지능(AI)으로 사람의 마음을 읽을 수 있을까. 공상과학 영화로만 느껴졌던 일이 현실이 되고 있다.

컴퓨터비전 분야 글로벌 석학인 미할 이라니(Michal Irani) 이스라엘 와이즈만 과학연구소 교수는 5일 부산 벡스코에서 열린 한국컴퓨터비전학회가 주최한 KCCV 2025 기조연설에서 ‘AI가 인간의 마음을 읽는 시대’의 서막을 알렸다. AI가 사람의 뇌파만으로 머릿속 이미지를 그대로 복원하고, 딥러닝 모델 속에 숨겨진 ‘기억’까지 꺼내는 기술을 공개했다.

이라니 교수는 1997년 와이즈만 연구소에 합류해 현재 수학컴퓨터과학부 학장을 맡고 있다. 컴퓨터비전, 이미지 처리, 비디오 분석 분야의 세계적 권위자로, 이스라엘 과학인문학술원 회원이기도 하다. 헬름홀츠 ‘테스트 오브 타임’ 상(2017), 란다우 AI상(2019), 로스차일드 수학컴퓨터과학상(2020) 등을 수상했으며, ECCV와 ICCV 등 주요 학회에서 여러 차례 최우수 논문상을 받았다.

◇ 뇌 속 이미지를 어떻게 꺼내나… fMRI로 뇌 혈류 변화 분석

AI가 어떻게 사람의 마음을 읽을 수 있을까. 핵심은 fMRI(기능적 자기공명영상) 기술에 있다. 사람이 어떤 이미지를 볼 때, 뇌는 이에 맞게 반응한다. fMRI는 이 반응을 측정하는 장치다. 약 3㎜ 크기의 뇌 영역에서 산소화된 산소량을 측정하는 방식이다. 

사람이 특정 이미지를 보면, 뇌의 시각 피질에서는 혈류량의 변화가 생기게 된다. 이라니 교수팀은 이 변화를 AI로 학습시켰다. AI가 이 변화를 측정해 ‘이 사람이 무엇을 봤는지’ 추정하게 했다.

하지만 이 데이터는 매우 복잡하고 희미하다. 이라니 교수는 “한 뇌 영역에는 약 10만 개의 뉴런이 있는데, 우리가 측정하는 건 이 뉴런들의 평균 활동도 아니라 그냥 이 영역으로 흐르는 산소화된 혈액의 양”이라고 설명했다. 사람의 행동을 측정하는데 정보가 적고 잡음이 많다는 뜻이다.

연구팀은 이런 희미한 신호에서 의미를 끌어내기 위해 단순 지도학습이 아닌 자기지도학습(self-supervised learning) 기법을 도입했다. 기존 데이터셋은 최대 1200쌍의 이미지-fMRI 데이터에 불과해 단순 지도학습으로는 이미지의 다양성을 학습하기에 부족했기 때문이다. 

연구팀은 자기지도학습을 도입해 이미지를 fMRI로 바꾸고, 다시 이미지로 복원했을 때 fMRI로 인코딩한 후 다시 이미지로 디코딩했을 때 원본 이미지와 같아야 한다는 제약을 걸었다. 이를 통해 fMRI 없이도 무제한의 이미지 데이터로 훈련할 수 있게 됐다. 또한, fMRI 데이터만 가지고도 학습이 가능하도록 만들었다. 복원한 이미지를 다시 fMRI로 바꾸었을 때 원래 신호와 같아야 한다는 조건을 활용해 새로운 fMRI 데이터에도 AI가 스스로 적응할 수 있게 했다.

◇ ‘3주 전까지는 흐릿했는데’… 확산 모델로 선명한 복원 달성

또 다른 문제도 있었다. 바로 이미지 해상도다. 기존 연구에서 복원된 이미지는 흐릿해서 대강의 형태만 겨우 알아볼 수 있었다. 이 문제를 극복하기 위해 연구팀은 확산 모델(diffusion model)을 활용했다. 흐릿한 이미지를 점점 선명하게 만들어내는 방식으로, 요즘 AI 이미지 생성 기술에서 널리 쓰이는 핵심 기술이다.

이라니 교수는 “3주 전만 해도 이미지 윤곽을 겨우 알아보는 수준이었지만, 지금은 뇌 신호만으로도 누구나 알아볼 수 있는 이미지를 복원할 수 있다”고 설명했다.

실제 결과도 좋았다. 테니스 선수의 동작, 해변의 정지 표지판, 화장실의 변기 위치, 거울을 바라보는 고양이의 시선, 스키어의 몸짓, 침대 위 베개의 위치까지 원본에 가깝게 복원됐다.

이 기술은 두 가지 AI를 결합한 방식이었다. 첫 번째 AI는 구조적인 정보를 담당해 이미지의 형태와 위치를 복원했다. 두 번째 AI는 의미적인 정보를 담당해 이미지의 내용과 분위기를 파악했다. 이때 사용한 것이 CLIP 임베딩이다.

연구팀은 흐릿한 이미지에 노이즈를 살짝 더한 후, 확산 모델의 초기 값으로 사용했다. 여기에 의미 정보를 담은 CLIP 임베딩을 조건으로 넣어 의미도 맞고 구조도 맞는 이미지를 복원해냈다.

물론 실패 사례도 있었다. 말을 탄 남성을 곰 인형을 든 소녀로 잘못 해석하거나, 자전거를 탄 남성을 커피잔을 든 사람으로 잘못 추정한 경우도 있었다. 원본 이미지에는 없던 물체가 새로 생기기도 했다. 하지만 전체적으로는 기존 연구보다 정밀한 복원 결과를 보여줬다.

◇ 뇌와 AI 융합으로 제3의 지능 시스템 구현

이라니 교수는 또 하나의 주목할 만한 연구를 공개했다. 바로 AI 딥러닝 모델 내부에 저장된 ‘기억’을 꺼내는 기술이다. AI는 훈련 데이터를 바탕으로 학습되지만, 그 학습 데이터가 어디까지 모델 안에 남아 있는지는 아직 정확히 알려지지 않았다.

연구팀은 AI 모델을 구성하는 파라미터만 가지고 AI가 훈련했던 데이터를 역으로 복원해 내는 데 성공했다. 이것은 기존처럼 모델의 출력값(activation)을 이용한 것이 아니라, 딱딱하게 고정된 파라미터만으로 해낸 일이었다.

이 아이디어는 ‘최대 마진 분류기(max margin classifier)’라는 이론에서 나왔다. 쉽게 말해, AI는 훈련 중에 판단하기 가장 어려웠던 사례들, 즉 클래스 경계선에 있는 데이터들을 더 많이 기억한다는 것을 응용한 것이다.

핵심 원리는 이렇다. AI가 학습할 때 사용하는 경사하강법이라는 방식은 결국 가장 어려운 데이터들 사이의 경계선을 최대한 넓게 그어주는 ‘최대 마진 분류기’를 만들어낸다. 이 과정에서 AI의 매개변수와 훈련 데이터 사이에는 일정한 수학적 법칙이 생긴다. 연구진은 이 법칙을 거꾸로 계산해서 매개변수로부터 원본 훈련 데이터를 되찾아낸 것이다.

실제 실험에서는 자동차와 동물을 구분하는 AI 모델을 만든 후, AI의 ‘뇌’ 속 숫자들만 가지고 원래 학습했던 자동차, 트럭, 비행기, 배, 말, 사슴, 소 등의 이미지를 복원해냈다. 복원된 이미지는 노이즈가 섞여 있었지만, 무엇인지 명확히 알아볼 수 있는 수준이었다.

이라니 교수는 “복원 가능한 이미지들은 모두 결정 경계에 위치한 가장 어려운 예제들”이라며 “네트워크가 가장 복잡한 케이스들을 매개변수에 기억한다”고 설명했다. 이는 AI가 사람처럼 어려운 문제일수록 더 깊이 기억한다는 점을 보여줬다.

이라니 교수는 윤리적 우려에 대해서도 언급했다. “현재로서는 피험자의 적극적인 협조 없이는 이런 기술을 사용할 수 없다”며 “사람들이 집중하지 않고 협조하지 않으면 아무것도 읽어낼 수 없다”고 기술 오남용 가능성을 일축했다. 이어 “AI와 인간 지능 사이의 간격을 좁히는 것이 궁극적 목표”라며 “뇌와 기계 각각의 강점을 결합해서 둘 다 개선할 수 있는 방법을 찾고 있다”고 밝혔다.

홈으로 이동 상단으로 이동