카카오브레인, 7억 4천만 개 규모 이미지-텍스트 데이터셋 공개
카카오브레인이 초거대 AI 개발의 기반이자 기업의 핵심 자산인 국내 최대 규모의 데이터셋을 외부에 공개한다고 30일 밝혔다.
카카오브레인이 공개하는 데이터셋은 약 7억 4천만 개의 이미지-텍스트로 이루어진 ‘Coyo(이하 코요)’로 8월 31일 카카오브레인 공식 홈페이지를 통해 공개할 예정이다.
데이터셋은 초거대 AI 모델의 성능을 높이기 위한 핵심 요소 중 하나로, 보통 수작업으로 이미지-텍스트 쌍을 맞추어 데이터셋을 수집해 비용과 시간이 많이 든다. 카카오브레인은 ‘코요’ 개발 시 독자 개발한 기술로 이미지-텍스트를 온라인에서 자동 수집해 투입 비용과 시간을 줄이고, 양질의 데이터를 선별했다.
카카오브레인은 유수의 글로벌 AI 기업에서 공개한 초거대 AI 모델 재현을 통해 ‘코요’의 교차 검증을 마치고, 데이터의 품질을 확인했다고 밝혔다. ‘코요’는 앞서 공개한 초거대 AI 이미지 생성 모델 ‘RQ-Transformer’와 AI 아티스트 ‘칼로(Karlo)’ 개발에도 적용됐다.
카카오브레인 김일두 대표는 “이번 데이터셋 공개는 초거대 AI 기술 개발에 박차를 가할 중요한 근간이자 이정표가 될 것”이라며, “앞으로도 카카오브레인은 다방면으로 기술 리더십을 선도하고 AI 커뮤니티와 협력하며 AI 생태계 발전에 이바지할 것”이라고 말했다.
한편, 카카오브레인은 현재까지 글로벌로 공개된 데이터셋 중 최상위급 규모인 ‘코요’를 세계 최대 수준으로 확대한다는 목표하에 한국어를 비롯한 다양한 언어로 개발해 나갈 계획이라고 밝혔다. 또한, 내년 상반기 중 ‘코요’ 데이터셋을 활용한 초거대 AI 모델을 추가 공개할 예정이다.