“학생 아닌 실무진 수준”… 말뿐인 질문을 실제 결과물로 증명한 28개 완주팀
1대1 멘토링부터 자격증 취득까지… 씽크포비엘, AI 신뢰성 인재 양성 생태계 구축
2026년 AI 산업의 화두 ‘신뢰성’… “트라이톤 완주자들이 미래의 파수꾼 될 것”

29일 국내 첫 AI 신뢰성 해커톤 ‘제1회 트라이톤’ 시상식에 참가한 학생들과 멘토, 심사위원들의 모습. /김동원 기자

인공지능(AI) 시대, 많은 학생이 AI를 더 잘 만드는 ‘선수’가 되려 할 때, AI를 제대로 평가하는 ‘심판’이 되는 길을 택한 이들이 있다. 국내 첫 AI 신뢰성 해커톤 ‘제1회 트라이톤’ 참가자들이다.

29일 서울교육대학교 사향융합체육관 그랜드홀에서 제1회 트라이톤 시상식이 열렸다. 트라이톤은 AI 신뢰성 문제 예방에 집중해 AI 개발 과정에서 나오는 신뢰성 입증 산출물을 평가하는 해커톤 대회다. ‘신뢰할 수 있는 인공지능 국제연대(TRAIN)’와 씽크포비엘이 주최하고 한국지능정보사회진흥원(NIA)이 후원했다.

이번 대회에는 전국 28개 대학 45개 팀 192명이 참가해 최종 28팀 117명이 약 5개월 여정을 완주했다. 과학기술연합대학원대학교(UST)와 경북대 AI 전공 대학원생으로 구성된 ‘TLV’ 팀(변재연‧이제경‧김보경)이 ‘가디언(Guardian) AI: 교육용 AI 안전성 평가 시스템’으로 우승했다. 2위는 서울시립대 ‘숨 쉰 채 발견’ 팀, 3위는 성균관대·성신여대 연합 ‘성·신의 한 수’ 팀이 차지했다.

2025년 10월 시작돼 5개월간 열린 AI 신뢰성 해커톤 ‘제1회 트라이톤’에서 과학기술연합대학원대학교(UST)와 경북대 AI 전공 대학원생으로 구성된 팀이 최종 우승을 차지했다. /씽크포비엘

◇ “AI 틀렸을 때 책임질 수 있나”… 정확도 아닌 신뢰성 평가

이날 박지환 씽크포비엘 대표는 개회사에서 “AI가 틀렸을 때, 잘못됐을 때 우리는 이 결과를 설명할 수 있을까, 그 책임은 누가 어떻게 질 것인가”라고 물었다. 이어 “지금까지 AI를 더 정확하고 효율적으로 동작하게 만드는 데 집중했다면, 이제는 AI가 동작하지 않도록 멈추게 하고 양보하게 하는 방법을 가르치고 기준을 설계하는 새로운 역할이 필요하다”고 강조했다.

실제로 트라이톤은 기존 AI 해커톤과 완전히 달랐다. 정확도 리더보드를 실시간으로 업데이트하며 순위를 겨루는 대신, AI 개발 전 과정에서 신뢰성을 입증하는 산출물을 평가했다.

천선일 씽크포비엘 연구소 수석매니저는 “트라이톤은 AI를 잘 만드는 대회가 아니라 AI가 틀렸거나 잘못됐을 때에도 끝까지 책임질 수 있는지를 묻는 대회”라고 설명했다. 참가자들은 모델 성능이 아니라, 그 판단이 어떤 기준으로 도출됐는지 설명하고 입증해야 했다.

우승팀 TLV는 실제 서비스 환경을 가정한 구체적 사례 설정, 충분한 근거 자료 바탕의 설계 구현, 일관되고 기술적 완성도 높은 서비스 수준 달성 등에서 높은 평가를 받았다. 상금은 AI 신뢰성 관련 국제 표준 번호를 상징하는 금액으로, 최대 420만100원에서 최소 52만5900원이 지급됐다. 상위 입상자에게는 국내 IT 기업 정식 채용 연계 인턴십 기회가 주어진다.

◇ “말로만 존재하던 질문, 실제 결과물로 구현”

천 수석매니저는 참가자들의 성과를 “학생 치고 잘했다는 차원이 아니라 실무에서도 잘 안 되는 부분을 뛰어넘었다”며 “AI가 얼마나 믿을 만한가, 편향에서 얼마나 자유로운가, 이 결정으로 누가 영향을 받는가와 같은 어려운 질문들을 말이 아닌 실제 결과물로 구현했다”고 설명했다.

천선일 씽크포비엘 연구소 수석매니저는 “트라이톤 참가자들은 AI가 얼마나 믿을 만한가, 편향에서 얼마나 자유로운가, 이 결정으로 누가 영향을 받는가와 같은 어려운 질문들을 말이 아닌 실제 결과물로 구현했다”고 말했다. /김동원 기자

실제로 참가자들은 영향 평가부터 위험 시나리오 통합, 데이터 편향의 의사결정 개입 논리, 운영 및 모니터링까지 6개 프로세스를 모두 연결해 냈다. 천 수석매니저는 “단순히 ‘데이터 편향이 있다’고 말하는 게 아니라 그것이 AI 의사결정에 어떻게 개입하는지 논리적으로 연결했다"며 "현업 평균을 한 단계 넘어선 결과”라고 평가했다.

그는 “완주율 자체가 단순한 참여율이 아니다”라며 “AI 신뢰성이라는 가장 어렵고 귀찮은 질문을 끝까지 놓지 않은 사람의 수”라고 의미를 부여했다. 지난해 10월 1일 대회가 시작됐을 때 45개 팀 192명이 참가했고, 예선을 거쳐 39팀(159명)이 본선에 진출했으며, 최종 28팀(117명)이 산출물을 제출했다.

권종원 한국산업기술시험원(KTL) 센터장은 축사에서 AI 신뢰성의 중요성을 강조하며 “네이버가 국가대표 AI 프로젝트에서 탈락한 주요 원인 중 하나가 해외 모델 사용에 대한 투명성 문제였다”며 “분명히 어떤 모델을 사용했는지 투명하게 공개했다면 이렇게까지 이슈가 되지 않았을 것”이라고 설명했다. 이어 “글로벌 대기업도 투명성 하나 때문에 탈락할 수 있다는 것을 보여준 사례”라며 “AI 신뢰성은 단순히 성능만의 문제가 아니라 어떻게 만들어졌는지, 무엇을 사용했는지 명확히 밝히는 것부터 시작된다”고 강조했다. 또 “AI 신뢰성에는 정답이 없지만, 서로 고민하고 최대한 안전하게 기술을 확보해 나가는 것이 필요하다”면서 “글로벌 규제 대응 환경에서 표준 기반으로 AI 신뢰성을 종합 평가할 수 있는 전문 역량의 중요성이 커지고 있다”고 덧붙였다.

◇ “10년 후 ‘그때 트라이톤 하길 잘했다’ 말 나올 것”

박지환 대표는 “이번 대회를 통해 AI 신뢰성은 문헌이나 이론 학습만으로 습득할 수 있는 영역이 아니라 실제 현장에서 판단과 설명, 책임 있는 선택이 병행될 때 비로소 체득될 수 있다는 점이 입증됐다”고 평가했다.

박지환 씽크포비엘 대표는 “이번 대회를 통해 AI 신뢰성은 문헌이나 이론 학습만으로 습득할 수 있는 영역이 아니라 실제 현장에서 판단과 설명, 책임 있는 선택이 병행될 때 비로소 체득될 수 있다는 점이 입증됐다”고 평가했다. /김동원 기자

그는 “10년, 20년 지났을 때 ‘그때 트라이톤을 하기 정말 잘했다’는 말이 나올 수 있는 전환점이 되길 바란다”며 “1기 완주자들은 앞으로 나올 2, 3기보다 훨씬 더 자랑스러운 분들”이라고 강조했다.

천선일 수석매니저는 “오늘의 완주가 끝이 아니라 앞으로 더 발전된 판단을 하려는 사람들의 시작점”이라며 “AI의 판단을 설명할 수 있는 사람들이 충분히 존재할 때 진짜 AI 미래가 만들어질 것”이라고 말했다.

씽크포비엘은 참가자 중도 탈락을 막기 위해 자체 개발 교육 서비스와 10년 이상 경력 전문 연구인력의 1대 1 멘토링을 제공했다. 소정의 교육 과정을 이수한 참가자에게는 ‘AI 신뢰성 전문가 민간자격(CTAP)’ 응시 기회도 주어졌으며, 지난 11일 제1회 시험에서 대회 참가자 40명이 합격했다.

KTL은 이번 대회에 GPU 컴퓨팅 자원을 무상 지원했으며, NIA는 ‘AI 허브’ 학습용 데이터를 개방했다. 씽크포비엘은 올해 2회 대회를 계획 중이며, 완주자들을 위한 커뮤니티도 준비하고 있다고 밝혔다.

홈으로 이동 상단으로 이동