테크

KAIST, 효율 높은 신개념 AI 학습법 개발

기사입력 2022.10.25 17:06
데이터 적어도 예측 정확도 향상 가능… 그래프 신경망 모델(GNN) 훈련에 최적
  • 박찬영 KAIST 산업및시스템공학과 교수팀이 제안한 관계 보존 학습 모델 구조. /KAIST
    ▲ 박찬영 KAIST 산업및시스템공학과 교수팀이 제안한 관계 보존 학습 모델 구조. /KAIST

    인공지능(AI)을 학습시킬 땐 데이터가 필요하다. 그러나 모든 데이터가 반드시 완벽하게 정리된 경우는 찾기 어려워 학습에 곤란을 겪는 경우가 많다. 이런 경우 사용할 수 있는 ‘비지도학습’ 기법도 존재하지만 적용 대상이 다르고 정확도도 떨어진다. 이 때문에 학습 데이터에 정답을 사람이 만들어 삽입하는 ‘레이블링’ 과정은 필수적이었다. 

    박찬영 KAIST 산업및시스템공학과 교수팀은 ‘데이터 레이블’이 없는 상황에서도 높은 예측 정확도를 달성할 수 있는 새로운 GNN 훈련 기술을 개발했다고 25일 밝혔다. GNN은 그래프 구조와 연결성 등을 사용한 인공 신경망이다. 일반 인공 신경망이 벡터나 행렬 형태로 데이터를 처리하는 것과 달리, GNN 모델은 그래프 구조를 가지고 데이터를 처리하고 학습한다. 다른 데이터들과 상관관계를 그래프로 연결함으로써 ‘추천시스템’이나 ‘소셜 네트워크 분석’, ‘단백질 분자 분석’ 등에 용이하다고 평가된다.

    GNN 학습에는 레이블링 과정이 필요하다. 예를 들어 소셜 네트워크를 분석하는 모델을 만들 때 특정 사용자에게 ‘20대’라는 레이블을 부여하는 과정이 필요했다. 이 작업은 일반적으로 수작업으로 진행되므로 노동력과 시간이 크게 소요됐다. 따라서 GNN 훈련 시 데이터가 충분하지 않은 상황에서도 효과를 낼 수 있는 방안이 계속 연구돼왔다.

    박 교수팀이 개발한 모델은 GNN에서 정점들 사이의 관계를 보존해 정점의 레이블이 없는 상황에서 모델을 훈련시켜 높은 예측 정확도를 달성할 수 있게 해준다.

  •  박 교수팀은 기존 연구와 달리 GNN에서 정점들 사이의 관계를 보존해 정점의 레이블이 없는 상황에서 모델을 훈련시켰다. /KAIST
    ▲ 박 교수팀은 기존 연구와 달리 GNN에서 정점들 사이의 관계를 보존해 정점의 레이블이 없는 상황에서 모델을 훈련시켰다. /KAIST

    기존 연구에선 정점의 레이블이 없는 상황에서 정점에 대한 표상을 훈련하기 위해 표상 공간 내에서 자기 자신을 제외한 다른 정점들과의 유사도가 작아지도록 훈련했다. 예를 들어 소셜 네트워크에 A, B, C 라는 사용자가 존재할 때, A, B와 C가 표상 공간에서 서로 간의 유사도가 모두 작아지도록 모델을 훈련하는 것이다.

    연구팀은 기존 연구에서 그래프 데이터가 정점 간의 관계를 나타내는 데이터이므로 정점 간의 관계를 포착하도록 정점의 표상을 훈련할 필요가 있다는 점을 착안해 새로운 모델을 개발했다. A, B와 C 서로 간의 유사도가 모두 작아지게 하는 훈련 메커니즘과는 달리, 실제 그래프상에서는 이들이 연관이 있을 수 있다는 점을 본 것이다. 이를 토대로 A, B와 C 사이의 관계를 정의해 그 관계를 보존하도록 학습하는 모델을 개발했다.

    연구팀은 이 학습 방법론을 ‘관계 보존 학습’이라고 정한 후 그래프 데이터 분석의 주요 문제인 정점 분류와 간선 예측에 적용했다. 그 결과 기존 연구 대비 정점 분류 문제에서 최대 3% 예측 정확도를 향상했다. 간선 예측 문제에서는 6%의 성능 향상이 이뤘고 다중 연결 네트워크 정점 분류 문제에서 3%의 성능 향상을 보였다.

    박찬영 교수는 “이번 기술은 그래프 데이터상에 레이블이 부재한 상황에서 표상 학습 모델을 훈련하는 기존 모델들의 단점들을 ‘관계 보존’이라는 개념을 통해 보완한 결과”라고 말했다. 이번 연구는 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 이뤄졌다. 

최신뉴스