인더스트리

클라우데라 “AI 발전 속 개인정보 유출 우려… ‘합성 데이터’ 해법”

기사입력 2026.01.27 17:23
  • 클라우데라는 합성 데이터를 기업 리스크 감소 도구로 제시하며, 체계적인 관리와 운영을 통해 데이터 노출을 줄이면서도 AI 개발을 지속할 수 있다고 27일 밝혔다.

    최근 대형언어모델(LLM)은 고객 지원, 데이터 분석, 개발자 생산성, 지식 관리 등 다양한 업무에 활용되고 있다. AI 에이전트까지 등장하며 AI는 정보 검색과 추론을 넘어 실질적인 업무를 수행하는 단계로 진화하고 있다.

    하지만 AI 활용이 확대될수록 프라이버시 리스크도 커진다. AI 모델 성능 향상에 필요한 데이터에는 지원 대화 기록, 거래 내역, 운영 로그 등 개인식별정보와 규제 대상 정보, 기업 고유의 비즈니스 정보가 포함되기 때문이다.

    합성 데이터는 실제 데이터의 핵심 패턴을 반영하면서도 실제 기록을 재현하지 않도록 알고리즘으로 생성된 데이터다. 기업은 이를 통해 민감한 정보 노출을 줄이면서도 AI 개발과 테스트를 진행할 수 있다.

    클라우데라는 합성 데이터가 중요한 의미를 가지는 AI 개발 영역으로 세 가지를 제시했다. 먼저 지도 학습 기반 파인튜닝 및 도메인 적응 단계에서, 합성 데이터는 실제 업무 의도와 형식을 반영하면서도 개인정보 노출 위험을 최소화하는 안전한 학습 환경을 제공한다.

    대규모 AI 모델 평가 단계에서는 수동 방식보다 빠르게 광범위하고 반복 가능한 평가 세트를 구축할 수 있다. 검색증강생성(RAG) 및 AI 에이전트 맞춤 데이터 큐레이션 단계에서는 현실적인 질의와 다단계 상호작용을 생성해 검색 및 도구 사용 행태를 철저하게 검증할 수 있다.

    세르지오 가고 클라우데라 최고기술책임자(CTO)는 “합성 데이터는 체계적으로 관리될 때 개인정보 노출을 줄이면서 모델 개발을 진행할 수 있는 리스크 감소 도구”라며 “LLM과 에이전트 AI 배포가 확대되면서 합성 데이터는 민감한 개인정보에 대한 의존도를 낮추는 현실적인 경로가 될 것”이라고 말했다.

    최승철 클라우데라코리아 지사장은 "최근 연쇄적인 대형 데이터 유출 사고가 이어지면서 국내 기업들은 철저한 데이터 보안을 준수하면서 AI 혁신을 추진해야 하는 과제를 안고 있다"며 "합성 데이터는 데이터 보안 리스크를 최소화하면서도 AI 경쟁력을 확보할 수 있는 전략 수단이 될 것"이라고 강조했다.

최신뉴스