LG AI연구원과 AWS의 만남, 초거대 AI 눈을 밝히다
제로샷 이미지 캡셔닝 기술, AWS 기반으로 제공
아마존웹서비스(AWS)는 LG AI연구원이 인공지능(AI) 기반 제로샷 이미지 캡션 솔루션을 AWS 기반으로 출시했다고 밝혔다. LG AI연구원이 개발한 초거대 AI ‘엑사원’을 활용한 솔루션이다. AI가 사람의 시각 인지 능력처럼 처음 본 사물이더라도 기존 학습한 데이터를 기반으로 어떤 물건인지 스스로 이해하고 유추해 텍스트로 설명하게 지원한다. AI의 시각 인지 능력을 키우는, 쉽게 말해 눈을 밝히는 기술이라고 볼 수 있다.
AWS는 29일(현지시간) 미국 라스베이거스에서 열린 자체 연례행사인 ‘AWS 리인벤트 2023’에서 LG AI연구원이 AWS 기반으로 AI 이미지-투-텍스트(image-to-text) 캡셔닝 솔루션을 출시했다고 발표했다.
이번에 출시한 제로샷 이미지 캡션 솔루션은 AI가 사람의 시각 인지 능력처럼 처음 본 사물이나, 동물, 풍경 등이 포함돼 있는 이미지나 일러스트레이션, 그래픽 등 표현 방식이 다른 이미지를 봤을 때 기존 학습한 데이터를 기반으로 스스로 이해하고 유추한 결과를 텍스트로 설명할 수 있는 기술이다. 토끼를 한 번도 본 적이 없는 사람이 토끼 여러 마리와 고양이 한 마리가 함께 있는 것을 봤을 때 동물들의 생김새와 특성의 공통점과 차이점을 학습하고 ‘토끼도 털은 있지만 고양이와는 다르게 귀가 길고, 뒷다리가 발달했다’라고 설명할 수 있는 것과 유사하다.
제로샷 이미지 캡셔닝 기술은 이미지 인식 AI 기술의 정확성과 공정성을 이끌어 AI 활용성을 높이는 장점이 있다. 하루에도 방대한 분량의 이미지 데이터들이 온라인에 생성되고 있는데, 이 기술을 활용하면 AI가 자동으로 캡션과 키워드를 생성해 검색의 편의성과 정확도를 높일 수 있어서다. 광고와 같은 산업군에서는 이 기술을 활용해 제품 설명을 자동화하거나 광고·마케팅 캠페인을 위한 새로운 콘텐츠를 만들 수 있고, 의학 쪽에서도 의료 영상 기반 서비스를 창출할 수 있다.
LG AI연구원은 엑사원의 학습 중 파라미터 수가 늘어나는 등 필요에 따라 비용 효율적으로 IT 리소스를 확장할 수 있도록, 아마존 엘라스틱 컴퓨트 클라우드(Amazon EC2)를 사한다. 조정 가능한 컴퓨팅 용량을 클라우드에서 제공하는 서비스다. LG AI연구원 고객사는 AWS의 확장성을 활용해 시간당 2000개 이상의 이미지 캡션을 생성할 수 있다.
LG AI연구원은 머신러닝(ML) 모델을 구축·훈련·배포하는 완전 관리형 서비스 아마존 세이지메이커(Amazon SageMaker)를 사용해 3억 5000만 개의 고해상도 이미지와 텍스트 세트를 엑사원에게 학습시켰다. LG AI연구원은 클라우드를 사용해 온프레미스 인프라보다 더 빠르고 저렴한 비용으로 결과를 미세 조정하고, 체크포인트를 구현하며, 데이터 편향과 같은 문제를 빠르게 해결했다.
이화영 LG AI연구원 상무는 “LG AI연구원의 엑사원은 크리에이티브 분야에서 생성형 AI를 더 쉽게 활용할 수 있게 해주는 강력한 도구”라며 “AWS의 ML 역량은 우리가 혁신적인 솔루션을 빠르게 개발하고 배포하는 데 큰 도움이 됐다”고 평가했다. 이어 “우리의 비전은 크리에이티브 영역이 새로운 차원의 효율성을 확보하고 기업이 이미지 검색 등의 반복적인 업무 대신 창작에 집중할 수 있도록 돕는 것”이라고 밝혔다.
바시 필로민(Vasi Philomin) AWS 생성형 AI 부문 부사장은 “콘텐츠 생성 산업이 급성장하는 가운데 LG AI연구원은 엑사원 플랫폼과 같은 기술이 AWS에 구축된 신속한 이미지-투-텍스트 캡션 솔루션을 활용해 어떻게 AI, 디자이너, 아티스트 간의 협업을 촉진할 수 있는지 보여주고 있다”면서 “전 세계에 새로운 차원의 창의성이 발휘될 수 있도록 앞으로도 LG AI연구원의 생성형 AI 혁신과 확장을 지원할 수 있기를 기대한다”고 말했다.