인공지능 학습, 합성(Synthetic) 데이터로 윤리 강화
AI는 의료, 금융, 운송에서 식량 공급, 에너지까지 필수 사회적 제품 및 서비스를 제공하고 있다. 이제는 AI 없이 앞으로 나갈 수 없다. 하지만, 새롭고 빠르게 진화하는 기술과는 다르게 데이터가 윤리적인가? 공정한가? 판단은 사회적 구성원의 합의와 정부의 원칙이 아직 부족하다.
정부는 이러한 편향된 데이터를 책임감 있게 관리하고 잠재적인 피해를 식별하고 대응하기 위한 구체적이고 명확한 윤리적 규정과 공정하며 안전한 AI 학습 데이터를 구축 정책을 시행해야 한다.
과학기술정보통신부, 인공지능 학습용 데이터 구축 사업 22년 총 5,382억 원
과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 2022년도 인공지능 학습용 데이터 구축 지원사업으로 총 5,382억 원 예산을 집행한다. 디지털 대전환의 핵심 기반인 인공지능 학습용 데이터 구축ㆍ개방을 통한 인공지능 산업 활성화와 질 높은 대규모 일자리 창출 추진을 하기 위함이다.
문제는 이 사업 수행기관 선정 및 사업계획서 평가에 ‘윤리’ 항목이 없다는 것이다. ‘개인정보 동의 등 개인정보 이용 및 권리 확보의 적정성’ 및 ‘개인정보 비식별화 기술 및 방법의 우수성’ 항목이 있지만 데이터 편향, 결함, 불공정, 차별에 대한 평가하는 항목은 없다.
인공지능은 공정한가? 차별과 편견, 불공정의 흔적이 있는 데이터는 우리 사회에 악영향을 끼친다. 미국 법원에서 사용하고 있는 COMPAS (Correctional Offender Management Profiling for Alternative Sanctions)는 범죄의 형태와 종류, 개인의 성격, 가족 구성 등의 영역을 종합해 형량을 선고한다. 하지만 이 시스템은 유사한 사회적 상황임에도 불구하고 흑인을 백인보다 24% 더 많은 재범 위험군으로 예측했다. 데이터 수집과 모델의 한계로 특정 집단에 더 불리한 예측을 내 놓은 것이다. 또한, 구글의 고임금광고가 남성에만 노출되고 이미지 검색에서 교수professor 와 교사teacher를 검색하면 교수는 주로 남성이, 교사는 주로 여성의 이미지가 검색된다. 더 놀라운 사실은 두 검색어 모두 유럽계 미국인을 제외한 아시아계 및 아프리카계 등의 소수민족은 거의 검색되지 않는다는 것이다.
인공지능 학습용 데이터 구축 사업도, 구축(양과 다양성)이 목적이 아니고 데이터의 윤리성과 공정성에 대한 평가가 핵심이여야 한다. 특히, 올해는 과학기술정보통신부 지난 2020년 7월부터 추진해 온 '디지털 뉴딜' 사업의 성과가 확산될 수 있도록 '데이터 댐'을 통해 축적한 데이터를 여러 기업이 다양한 분야에 적극적으로 활용할 수 있도록 해 데이터 생태계를 조성하는 것이 중점이다. 따라서 ‘윤리적 데이터’에 대한 규정과 원칙은 매우 중요하다.
윤리적 알고리즘, 합성(Synthetic) 데이터 제공
자율주행차와 물류 로봇은 데이터의 양과 그 데이터의 정확성과 다양성을 현실 세계에서 모두 얻을 수 없다. 이러한 AI에 필요한 데이터를 생성하기 위한 물리적으로 정확한 시뮬레이션이 필요하다. 복잡한 실제 데이터보다 합성된 데이터를 사용하는 AI의 발전 가능성이 높아질 수 있다. 실제적으로 GARTNER는 60% 이상 합성데이터로 AI를 훈련시킨다고 말했다. 물론 실제 데이터와 얼마나 현실 환경에 적합한지는 논란의 여지가 있다.
엔디비아 부사장인 레브 레바레디안은 “합성데이터 사용으로 ai 시스템을 보다 윤리적으로 만들 수 있다”고 말했다. 합성 데이터는 개인 정보 위험과 편견 문제에서 벗어날 수 있고 이러한 알고리즘은 데이터 구조 및 상관관계를 학습하여 동일한 통계적 품질의 무한한 인공 데이터를 생성할 수 있다. 기업 고객의 평균 10-25%만이 데이터 사용에 동의하는 경향이 있었기 때문에 합성 데이터 통해 고객에 대한 이해를 심화하는 동시에 고객의 개인 정보를 안전하게 보호할 수 있다.
AI를 공정하고 이상적으로 하는 것은 데이터 알고리즘에 인간의 편향이 찾아내는 것이다. 물론 사회적 합의와 변화를 인식하는 것은 여전히 필요하지만 지금보다 더 평등한 디지털 세상을 만들기 위해 윤리적 합성 데이터를 제공한다면 물리적/디지털 편향을 막을 수 있다. 윤리적(완전히 익명이고 편향되지 않은 공정한 합성 데이터) 합성 데이터로 현재 그대로인 사회가 아니라 우리가 나가고 싶은 공정한 사회를 만들어 가야 한다.