고병철 계명대 컴퓨터공학과 교수

지난 2021년 3월, 세계적인 인공지능 전문가 앤드류 응(Andrew NG) 교수는 ‘머신러닝 시스템 개발: 모델 중심에서 데이터 중심으로(From Model-centric to Data-centric AI)'라는 세미나에서 모델 연구에 치우쳐 있던 인공지능 분야에 ‘데이터 중심 (Data-centric) AI’라는 새로운 화두를 던졌다.

이 세미나에서 앤드류 응 교수는 인공지능은 모델 중심 (Model-Centric AI)이 아닌 데이터 중심으로 발전해 나갈 것으로 예측했다. 데이터 중심 AI란 모델의 성능을 효율적으로 높이기 위해 코드와 알고리즘을 개선하기보다는 체계적으로 데이터를 개선하는 방식이다. 기존의 모델 중심 AI가 인공지능의 성능을 향상시키기 위해 모델(코드)의 구조를 튜닝하는 것에 집중하는 접근법이라면 데이터 중심 AI는 인공지능의 성능을 향상시키기 위해 데이터의 품질을 개선하는 것에 집중하는 접근법이다. 데이터 중심 AI의 중요성을 이해하기 위해서는 먼저 데이터의 양과 질과의 상관관계를 이해하는 것이 중요하다.

그림에서 보다시피, 적은 데이터, 일관성 없는 레이블은 올바른 모델의 예측 성능을 평가하는 곡선을 찾을 수 없다. 반대로 빅데이터, 일관성 없는 레이블에서는 가운데 그림처럼 올바른 모델의 예측 성능을 평가하는 곡선을 찾을 수 있다. 또한 적은 데이터, 일관성 있는 레이블에서는 마찬가지로 올바른 모델의 예측 성능을 평가하는 곡선을 찾을 수 있다. 이 결과로부터 우리는 일관성 있는 레이블을 생성해 낼 수 있다면 적은 데이터만으로도 충분히 좋은 모델을 만들어 낼 수 있다는 것을 알 수 있다.



[그림 1] 데이터의 양과 질과의 상관관계./ Deeplearning.AI Andrew Ng, 2021

데이터 가공은 인공지능 분야의 발전에 필수적인 과정이지만, 여전히 해결해야 할 중요한 과제이다. 최근 몇 년 동안 우리 정부는 데이터 가공과 관련한 지원 사업을 확대해 왔지만, 학계와 산업계에서는 여전히 데이터 가공에 어려움을 겪고 있다. 이러한 어려움은 특히 의료, 자율주행차, 기후, 재난, 경제 예측과 같은 분야에서 더욱 심각하다. 이러한 분야들의 데이터는 다양한 멀티모달 데이터 (여러 가지 유형의 데이터 또는 정보를 함께 활용하여 인공 지능 시스템을 구축하는 접근 방식) 를 포함하고 있으며, 도메인별로 그 의미가 다를 수 있는 경우가 많다. 이로 인해 범용적인 데이터 구축과 가공에 많은 시간과 비용이 소요된다.

데이터 부족은 인공지능 모델의 불공정성 문제를 초래하는 주요 원인 중 하나이다. 데이터 부족으로 인해 발생하는 데이터 편향을 해결하기 위한 기술들은 대부분 모델 측면에서 편향성과 관련된 변수를 찾아 모델의 파라미터를 조정하는 방식에 집중하고 있다. 결과적으로 기업 규모나 제품 개발 단계와 관계없이 데이터 부족으로 인한 공정성 문제는 지속적으로 어려움을 일으킨다. 따라서 신뢰할 수 있는 인공지능을 개발하기 위해서는 데이터 중심 접근 방식이 필수적이다.

모델 중심 AI의 한계를 극복하고 지속가능하면서도 공정한 인공지능 모델 훈련을 위해서는 새로운 접근방식이 필요하다. 핵심은 데이터 중심 AI 파이프라인 구축과 머신러닝 운영 플랫폼(MLOps) 활용이다. 데이터 중심 AI 파이프라인은 데이터 자동 레이블링, 데이터 증강 (기존 데이터를 기반으로 새로운 데이터를 생성하여 모델 학습에 사용할 수 있는 데이터양을 늘리는 것), 데이터 생성 (합성 데이터 생성 기술을 활용하여 현실 세계 데이터를 보완), 데이터 품질 평가 (데이터의 품질을 지속적으로 평가하고 개선), 데이터 클렌징 (오류나 불필요한 정보를 제거하여 데이터 품질을 높임) 요소들로 구성된다. 데이터 중심 AI 파이프라인과 더불어 빅데이터보다는 굿 데이터(the right data to feed the software)에 집중하는 새로운 전략적 머신러닝 운영 플랫폼(MLOps) 접근 방식이 필요하다. 머신러닝 운영 플랫폼(MLOps)은 인공지능 모델 개발 및 운영의 전 과정을 자동화하고 관리하는 시스템이다. 이 플랫폼은 데이터 수집, 모델 개발, 학습, 배포, 모니터링 등의 단계를 하나의 통합된 플랫폼에서 제공하며, 인공지능 모델의 효율적인 개발과 운영을 지원한다.

이번에는 데이터 중심 AI의 적용 사례를 살펴보자. 태양광 패널이나 철강 등 결함을 찾는 문제에서 모델을 개선하거나 데이터를 개선했을 때의 시스템 성능 비교 결과를 살펴보면, 단순히 인공지능 모델의 하이퍼파라미터를 조절한 경우, 기본 모델은 76.2%의 정확도에 도달하고 그 이상의 성능 향상이 없었다. 그러나 학습 데이터에서 결함이 있는 부분을 보다 정확하게 레이블링한 경우, 놀랍게도 16.9%가 상승한 93.1%의 정확도에 도달할 수 있었다.

또 다른 사례는 학습용 데이터를 개선하여 자율 주행 기술의 성능을 향상시킨 테슬라의 경우이다. 전 세계 도로를 달리는 Tesla 자동차에서 수집된 거대한 데이터 셋을 모두 사람이 레이블링하는 것은 어려움이 있다. 이를 해결하기 위해 Tesla는 쉐도우 모드를 도입했다. 쉐도우 모드를 통해 차량이 수집한 데이터를 자체적으로 예측하고, 잘못된 데이터를 AI 팀에 전달한다. 전달된 데이터는 AI가 오프라인에서 자동으로 레이블을 지정하고, 작업자는 이를 검수하여 필요시에 수정하는 방식으로 작업을 효율적으로 수행한다. 이를 통해 성능 개선이 필요한 상황에 대한 데이터를 수집하고, 이를 활용하여 AI 모델을 재학습할 수 있다.



[그림 2] 철강 결함의 레이블 개선 (좌)와 테슬라의 쉐도우모드 (우) ./Deeplearning.AI Andrew Ng, 2021, 테슬라

향후 10년 동안 인공신경망 기술은 단순한 기계학습 도구를 넘어 소프트웨어 구현 방식을 근본적으로 변화시키고 '소프트웨어 2.0' 시대를 열어갈 것으로 예상된다. '소프트웨어 2.0' 시대는 인공신경망이 데이터를 활용하여 스스로 알고리즘을 만드는 새로운 패러다임을 의미한다. 이 시대에는 데이터가 코드를 직접 생성하며, 자율주행차, 신약 개발 등 거의 모든 분야에서 소프트웨어 개발 능력을 획기적으로 향상시킬 것이다. 소프트웨어 2.0 기술은 산업 전반에 걸쳐 혁신을 가져올 것으로 예상되며, 인터넷 혁명보다 더 큰 영향을 미칠 것으로 기대된다. 또한, 데이터의 중요성이 증가함에 따라 데이터 주권을 둘러싼 국제 갈등이 심화될 가능성이 높다. 따라서, 정부는 데이터를 국가 전략 자산으로 인식하고 이에 대한 대응 전략을 수립이 필요하다.

데이터 중심 AI는 인공지능 기술 발전의 새로운 패러다임으로 떠오르고 있으며, 우리 삶과 사회 전반에 걸쳐 혁신을 가져올 것으로 기대된다. 본 컬럼에서는 데이터 중심 AI의 개념과 장점, 그리고 데이터 중심 AI를 개발하기 위한 방법에 대해 살펴보았다. 데이터 중심 AI의 핵심은 데이터이다. 데이터는 현대 사회의 가장 귀중한 자원 중 하나이며, 인공지능은 이러한 데이터를 활용하여 다양한 문제를 해결하고 새로운 가치를 창출하는 데 사용된다. 데이터 중심 AI는 기존의 모델 중심 AI와 달리 데이터 자체를 개선하고 활용하는 데 집중함으로써 더욱 강력하고 정확한 인공지능 모델을 개발할 수 있도록 한다. 데이터 중심 AI는 이미 새로운 의약품 개발, 개인 맞춤형 학습 환경 제공, 금융 시장 분석 및 예측, 자동화된 제조 공정 등 다양한 분야에 적용되고 있으며, 앞으로 더욱 빠르게 발전할 것으로 예상된다.

데이터 중심 AI는 미래 사회에 큰 잠재력을 가진 기술이지만, 동시에 해결해야 할 과제도 존재한다. 우리는 데이터의 개인정보 보호와 윤리적인 측면을 항상 염두에 두어야 한다. 또한, 인공지능의 편향성과 공정성 문제를 해결하기 위한 노력이 필요하다. 이러한 문제에 대한 인식과 대응은 우리 모두의 책임이다. 데이터 중심 AI가 우리 삶을 어떻게 변화시킬지 기대하며, 지속적인 연구와 개발을 통해 데이터 중심 AI의 긍정적인 잠재력을 최대한 활용할 수 있도록 노력이 지속되어야 한다.

홈으로 이동 상단으로 이동