AI 개발 위한 이미지·영상·음성·텍스트 데이터 해당

개인정보보호위원회가 공개한 ‘가명정보 처리 가이드라인’ 일부. /개인정보보호위원회

개인정보보호위원회(이하 개인정보위)가 인공지능(AI) 개발에 쓰이는 텍스트·음성·영상·이미지에 해당하는 비정형 데이터에 대한 가이드라인을 발표했다. 이 가이드라인은 비정형 데이트를 어떻게 비실명화 처리를 할지 데이터 처리 목적, 환경, 민감도 등을 조합적으로 고려해 개인식별 위험을 판단하고 합리적인 처리방법과 수준을 설정하도록 했다.

이번 개정 가이드라인은 기존의 정형 데이터 비실명 처리에 대한 구체적인 기준을 마련했다는 점에서 의미가 있다. 기존은 정형 데이터를 비실명 처리하는 데에만 방점이 있었기 때문에 기업들이 어떻게 비실명을 처리해야 하는지에 대한 기준이 없어 기술 개발에 어려움을 겪어 왔기 때문이다. 이에 개인정보위는 산업계‧학계‧법조계‧시민사회 및 관계부처 등 각 분야 전문가로 구성된 태스크 포스(T/F) 운영해 1년여 기간 동안 논의 끝에 가이드라인을 대폭 개정했다.

비정형데이터는 구조화된 정형데이터와 다르다. 정해진 형태가 없기 때문에 개인식별 가능성과 위험성을 명확하게 알아내기가 어렵다. 예를 들어 주민등록번호, 전화번호 등 개인식별 위험 정보가 명확히 구분되는 정보가 있는가 하면 CCTV 영상에서 흉터나 문신 등 특이한 신체 특징 때문에 식별 위험이 있을 수도 있다. 흉부 CT도 3차원 재건 기술을 악용하거나 특이한 흉터 등 위험 요소가 있다.

이에 이번 가이드라인은 식별 위험을 사전에 진단하고 낮추기 위한 구체적인 기준과 검토 체크리스트를 제공한다. 체크리스트를 통해 식별 위험을 사전에 진단하고 위험을 관리적·환경적으로 통제할 수 있도록 했다.

또 연구목적 달성에 필수적 정보항목을 남기는 경우엔 그 외 정보에 대한 가명처리 수준을 높이거나 접근권한 통제, 식별에 악용될 수 있는 소프트웨어(SW) 반입제한, 보안서약서 징구 등 조치를 할 수 있도록 했다. 아울러 기업 또는 연구기관은 가이드라인에 제시되지 않는 새로운 사례를 개인정보위에 보내 가명처리 방식을 사전 검토받을 수 있다.

비정형 데이터에 대한 개인인식 위험 요인을 완전히 탐지하는 기술이 없기 때문에 기술적 한계 등을 보완하는 조치도 이행하도록 권고했다. 가명처리 기술의 신뢰성을 확인할 수 있는 근거를 작성해 보관해야 하며, 가명 처리에 대한 결과도 자체 추가검수를 통해 수행하도록 했다. 아울러 기관·기업이 작성한 가명처리 기술에 대한 적절성에 대한 근거와 추가 검수에 대해 외부 전문가가 참여한 위원회가 적정성 검토를 진행하도록 했다.

가명 처리된 비정형 데이터가 데이터 복원 기술로 복원되지 않도록 내부 통제를 강화하고 데이터 활용 후 신속히 파기하도록 했다. 또 시스템 및 SW 접근과 통제 방안을 마련해 재식별을 해낼 수 있는 위험성을 막도록 했다.

이번 가이드라인에서는 기관과 기업들이 해당하는 상황을 참조할 수 있도록 다양한 시나리오도 제시했다. 의료, 자율주행차, 챗봇 등 분야별 7종의 시나리오를 통해 가명정보 활용 과정을 상세히 설명했다. 의료 현장에서 활용되는 AI 솔루션 개발을 위한 데이터 활용 고려 사항과 대응 방법 등 CCTV, 콜센터, 데이터 솔루션 개발 등 상황별 안전한 가명처리 방법을 참조할 수 있도록 했다.

개인정보위는 이번 가이드라인은 권고 사항일 뿐 강행 규정이 아니라고 설명했다. 하지만 가명처리에 대한 위반 사례가 많을 경우 1년 후 이를 법규로 제정해 규제하는 방법을 제정한다는 방침이다.

고학수 개인정보위 위원장은 "AI 등 많은 신기술 영역은 현장의 불확실성을 해소할 수 있는 세밀한 데이터 처리 정책이 중요하다"며 "이번 가이드라인은 올해 시리즈로 발표되는 AI 데이터 관련 가이드라인의 첫 시작으로 대형언어모델(LLM)에 관련한 ‘공개된 개인정보 처리 가이드라인’ 등을 올해 순차적으로 발표하겠다"고 밝혔다.

홈으로 이동 상단으로 이동