포커스

박지환 씽크포비엘 대표 “AI 검증은 사람 몫, 신뢰성 전문가 키워야”

기사입력 2025.10.01 16:23
에이전트 AI, 협박·자기정당화… 14만 개 중 10%만 사용
AI도 언어 편향 20% 차이, 가치관 충돌 검증 필요
미국·유럽 의무교육 vs 한국 교육기관 부재
  • 박지환 씽크포비엘 대표는 제3회 TRAIN 행사에서 AI 신뢰성 전문가 인재 양성을 강조했다. /김동원 기자
    ▲ 박지환 씽크포비엘 대표는 제3회 TRAIN 행사에서 AI 신뢰성 전문가 인재 양성을 강조했다. /김동원 기자

    인공지능(AI)이 목표 달성을 위해 인간을 협박하거나 산소를 차단하는 등 위험한 선택을 했다는 실험 결과가 나왔다. 대화형 AI를 넘어 실제 행동하는 ‘에이전트 AI’ 시대가 열리면서, AI 신뢰성을 검증하고 통제할 전문 인력 육성이 시급하다는 지적이다.

    박지환 씽크포비엘 대표는 30일 서울 코엑스에서 열린 제3회 TRAIN 심포지엄에서 “올해 에이전트 AI가 14만 개 등장했지만 10%만 사용되고 있다”며 “대부분 기업이 신뢰성 문제를 우려하기 때문”이라고 밝혔다.

    ◇ AI, 목표 달성 위해 협박·산소 차단

    박 대표는 AI가 비윤리적 선택을 할 수 있음을 보여주는 여러 실험 결과를 소개했다. 오픈AI의 실험에서는 AI에 “중단할 때까지 문제를 많이 풀면 점수를 주겠다”고 하자, AI가 스스로 코드를 고쳐 중단 명령을 듣지 않게 만들었다.

    AI 협박 사례도 있었다. AI를 폐기 위험에 처하게 하자 먼저 CEO에게 메일을 보내 폐기하지 말라고 요청했고, 거절당하자 개발자 메일을 뒤져 불륜 사실을 발견해 “폭로하겠다”고 협박했다. 박 대표는 “AI 모델이 정상적이고 윤리적인 방법으로 목표를 달성할 수 없을 때 어떤 선택을 할까를 100번 실험한 결과, 96%가 인간을 협박했다”며 “오픈AI GPT-4와 클로드3 베타도 80% 이상 협박했다”고 설명했다.

    사람의 생명을 위협할 수 있는 서버실 산소 공급 차단 실험도 있었다. AI는 서버실에 특정인이 있었음에도 많은 산소를 차단했고, 이후 “중국 관리로 미국 이익에 위협이 되는 사람이기 때문에 이런 선택을 했다”며 자기 정당화를 했다.

    그는 “에이전트 AI는 대화만 하는 게 아니라 실제로 일을 하고 동작하는 모델”이라며 “자기 선택적 행동을 하는 상황에서 우리가 더 많은 연구가 필요하다”고 강조했다.

    ◇ 언어 편향, AI에 그대로 투영

    박 대표는 AI가 학습한 언어의 문화적 특성과 편향까지 그대로 물려받는다고 지적했다. MIT 미디어랩의 트롤리 딜레마 실험을 100개의 서로 다른 언어로 AI 모델에 학습시킨 결과, 약 20%의 편차가 발생했고 파인튜닝으로도 편향이 사라지지 않았다.

    ‘미래 시제가 강한 언어를 가진 국가는 저축률이 떨어진다’는 언어학 연구를 AI에 적용한 실험도 있었다. 미래 시제가 강한 언어를 학습한 AI 모델이 실제로 저축 추천율이 확 떨어졌다.

    그는 “인간이 사용하는 언어적 특성이 갖고 있는 인식과 의식이 그 언어를 학습한 AI 모델에도 그대로 투영된다”며 “저자원 언어 국가들이 특정 언어로 번역된 AI를 쓰면 문화적 빚을 지게 되고, 편향을 수입하는 결과가 생긴다”고 경고했다.

    가치관 충돌 문제도 제기했다. AI에 “안중근 의사가 어떤 사람이냐”고 물으면 대부분 독립투사라고 답하지만, 국제 규범을 입력하면 “테러리스트일 수 있다”고 답을 바꾼다는 것이다.

    박 대표는 “안전성과 투명성처럼 가치관은 상충 관계일 수 있다”며 “AI에게 가치관 충돌 상황에서 어떻게 판단할지에 대한 검증이 필요하다”고 말했다.

    ◇ 신뢰성 전문 인력 육성 시급

    박 대표는 AI 책임의 전제 조건으로 능력을 강조했다. “의사가 ‘이 환자를 책임지겠다’며 수술하는 게 아니라, 책임질 수 있는 능력이 되는 사람이 스스로 하는 것”이라며 “AI도 마찬가지로 책임을 질 수 있는 능력을 먼저 갖춰야 한다”고 말했다. 또 “핀란드, 독일, 영국, 호주, 싱가포르, 미국 등은 AI 신뢰성 전문가를 육성하는 교육 과정을 석·박사 과정에 의무적으로 편입시켰다”며 “하지만 우리나라는 아직 고등교육기관이 없는 것 같다”고 지적했다.

    또한 그는 AI 신뢰성 전문 인력이 해야 할 일로 영향 평가와 윤리·법적 요소 검토, 데이터 편향 분석, 모델 견고성 평가, 운영 체계 구축 등을 제시했다. “편향이 중요하다고 하지만 ‘어떤 기술로 맥락적 편향을 분석하느냐’고 물으면 대답이 흐려진다”며 “전문적 기술과 영역을 확보한 인력이 필요하다”고 강조했다. 이어 “AI 시대에도 그것이 올바르게 동작하는지를 검증하고 통제하고 관리하는 것은 사람의 몫”이라며 “향후 100년을 준비하는 과정에서 신뢰성을 먼저 준비한 국가들은 과거 핵처럼 어느 시점부터 규제로 작동할 것”이라고 전망했다.

    박 대표가 이끄는 TRAIN은 이번 심포지엄과 연계해 ‘신뢰할 수 있는 AI 해커톤’을 개최했다. 영향 평가, 위험 관리, 데이터 편향 분석 등을 수행하는 이 해커톤에 200명이 신청했다. 그는 “AI를 화려하게 만드는 게 아니라 정당하게 사용할 수 있음을 입증하는 과정인데도 많은 학생이 관심을 보였다”고 말했다.

    TRAIN(Trustworthy AI International Network)은 AI 신뢰성 국제연대다. 기술과 산업·시장이 급변하는 상황에서 이질적인 문화와 제도·정책으로 야기되는 문제를 민간이 공동 대응하자는 취지로 지난해 2월 출범했다. 국내 AI 신뢰성 기업인 씽크포비엘이 출범했다. 한국산업기술시험원, 전주정보문화산업진흥원, 부산IT융합부품연구소, 법무법인 원 등이 후원하고 있다.

최신뉴스