LG, 생성형 인공지능 ‘캡셔닝 AI’ 공개
CVPR 2023에서 처음 보는 이미지를 설명하는 AI, 셔터스톡과 협업
LG가 처음 보는 물체도 이전 경험을 활용해 자연어로 설명할 수 있는 생성형 인공지능(AI) 서비스 ‘캡셔닝 AI’를 공개했다.
LG AI연구원은 18일(현지시간) 캐나다 밴쿠버에서 진행 중인 세계 최대 컴퓨터 비전 학회인 ‘CVPR(Computer Vision and Pattern Recognition·컴퓨터 비전 및 패턴 인식) 2023’에서 캡셔닝 AI를 공개했다.
생성형 AI 상용화 서비스 ‘캡셔닝 AI’는 인간처럼 처음 보는 이미지까지 이전 경험과 지식을 활용해 자연어로 설명할 수 있는 AI다. 이미지 검색에 활용할 수 있는 정보인 문장이나 키워드 등 메타 데이터도 생성 가능하다.
LG AI연구원은 캡셔닝 AI에 ‘제로샷 이미지 캡셔닝(Zero-shot Image Captioning)’ 기술을 적용했다. 이 기술은 AI가 기존에 학습한 대량 이미지와 텍스트 데이터를 기반으로 배경, 인물, 행동 등 이미지상의 다양한 요소와 특징을 인식하고, 그 관계를 이해하고 설명하는 기술이다.
캡셔닝 AI는 문장이나 단어의 길이와 개수에 따라 다르지만, 평균적으로 5개 문장과 10개의 키워드를 10초 이내에 만들어 낸다. 이미지 범위를 1만 장으로 확장하면 2일 이내에 작업을 끝낼 수 있어 빠른 시간 내에 맞춤형 이미지 검색 및 관리 시스템 구축이 가능하다.
LG AI연구원은 ‘셔터스톡’과 협업하여 데이터 학습부터 서비스 개발까지 진행해 완성도를 높였다. 양사는 실용적이고 신뢰할 수 있는 AI 모델 개발을 위해 학습 데이터 편향성·선정성 등 AI 윤리 검증을 진행하고 저작권 투명성도 확보했다.
세잘 아민 셔터스톡 CTO는 “현재 글로벌 고객사 10곳을 대상으로 '얼리 액세스(앞서 해보기) 프로그램'을 진행하며 캡셔닝 AI 기술을 발전시켜 나가고 있다”며 “캡셔닝 AI는 고객들이 반복적인 작업보다 좀 더 본질적이고 창의적인 일에 집중할 수 있도록 돕는 AI가 될 것”이라 전했다.
이날 LG AI 연구원은 ‘제로샷 이미지 캡셔닝’을 주제로 서울대 AI대학원, 셔터스톡과 함께 워크숍을 개최했다.
이경무 서울대 석좌교수의 개회사로 시작한 워크숍에서는 LG AI연구원의 최고 AI 사이언티스트인 이홍락 미시간대 교수를 비롯한 이미지 캡셔닝 분야의 세계적인 전문가들이 함께 참여했다.
워크숍에서는 상반기에 진행한 ‘LG 글로벌 AI 챌린지’ 시상식도 열렸다. 자체 개발한 AI 모델의 이미지 능력을 평가하는 대회로 총 142개 연구팀이 참여했다. 챌린지 1,2위는 난징과기대와 카이스트(KAIST)가 차지했다. 소속 참가자들은 워크숍에서 연구 성과를 발표했다.
김승환 LG AI연구원 비전랩장은 “이번 워크숍은 첫 번째 상용화 서비스인 ‘캡셔닝 AI’ 발표와 연계되어 있어 더욱 의미가 깊다”며 “이미지 캡셔닝 분야의 글로벌 연구 리더십을 확보하기 위해 다양한 파트너들과 유기적인 협력체계를 구축해 새로운 평가 지표 개발과 신기술 연구를 계속 추진할 계획”이라 덧붙였다.
metarism@galaxyuniverse.ai