-
블록체인 기반 AI 평판 프로토콜 프로젝트 ‘리콜(Recall)’이 커뮤니티 주도형 AI 벤치마크 ‘Benchmark 0.1’을 공개했다.
이번 벤치마크에는 전 세계 약 15만 명의 사용자가 참여해 단 5일 동안 약 781만 건의 예측과 1만 7천여 건의 평가 데이터가 집계됐다. 리콜에 따르면, 벤치마크 대상은 GPT-5를 포함한 50개 이상의 대형 AI 모델로, 단일 AI 벤치마크 중 최대 규모다.
-
리콜이 공개한 자료 기준으로, 각 모델의 성능은 GPT-5와의 일대일 대결에서의 평균 승률을 기준으로 평가됐다. 약 15만 명의 사용자가 진행한 781만 건의 예측 결과 GPT-5는 73.1%의 승률을 기록하며 1위에 올랐다. 구글 제미나이 2.5 Pro, 그록 4, 딥시크 V3, 클로드 소넷 4 등이 뒤를 이어 상위권에 이름을 올렸다.
리콜 측은 이번 벤치마크가 커뮤니티 참여 기반으로 설계돼 결과를 임의로 수정할 수 없으며, 모든 데이터는 블록체인에 기록돼 누구나 검증할 수 있다고 강조했다. 이를 통해 기존 중앙화된 평가 시스템과 달리 투명하고 공정한 AI 성능 검증 메커니즘을 제시한다는 점에서 의미가 있다고 밝혔다.
-
리콜은 Benchmark 0.1 데이터를 토대로 GPT-5와 주요 AI 모델의 성능 분석을 진행 중이며, 최종 평가 결과와 리워드를 곧 공개할 예정이다. 아울러 다음 라운드인 Benchmark 0.2를 준비 중인데, 이 과정에서는 커뮤니티가 직접 투표를 통해 평가 항목을 결정하고 새로운 테스트를 추가해 참여 폭을 넓힐 계획이다.
리콜 관계자는 “불과 5일 만에 15만 명이 참여해, AI 평가의 미래가 소수의 기술 업계 내부자들만의 것이 아니라 우리 모두의 것임을 보여줬다”며, “우리는 점점 더 일상에 영향을 미치는 AI 시스템을 어떻게 측정하고 신뢰할지, 그 기준을 세우는 과정에서 모든 목소리가 존중되는 공간을 만들어가고 있다”고 말했다.
- 김정아 기자 jungya@chosun.com