제로샷 이미지 캡셔닝 기술, AWS 기반으로 제공

LG AI연구원이 AWS 기반으로 AI 이미지-투-텍스트(image-to-text) 캡셔닝 솔루션을 출시했다고 발표했다. /AWS

아마존웹서비스(AWS)는 LG AI연구원이 인공지능(AI) 기반 제로샷 이미지 캡션 솔루션을 AWS 기반으로 출시했다고 밝혔다. LG AI연구원이 개발한 초거대 AI ‘엑사원’을 활용한 솔루션이다. AI가 사람의 시각 인지 능력처럼 처음 본 사물이더라도 기존 학습한 데이터를 기반으로 어떤 물건인지 스스로 이해하고 유추해 텍스트로 설명하게 지원한다. AI의 시각 인지 능력을 키우는, 쉽게 말해 눈을 밝히는 기술이라고 볼 수 있다.

AWS는 29일(현지시간) 미국 라스베이거스에서 열린 자체 연례행사인 ‘AWS 리인벤트 2023’에서 LG AI연구원이 AWS 기반으로 AI 이미지-투-텍스트(image-to-text) 캡셔닝 솔루션을 출시했다고 발표했다. 

이번에 출시한 제로샷 이미지 캡션 솔루션은 AI가 사람의 시각 인지 능력처럼 처음 본 사물이나, 동물, 풍경 등이 포함돼 있는 이미지나 일러스트레이션, 그래픽 등 표현 방식이 다른 이미지를 봤을 때 기존 학습한 데이터를 기반으로 스스로 이해하고 유추한 결과를 텍스트로 설명할 수 있는 기술이다. 토끼를 한 번도 본 적이 없는 사람이 토끼 여러 마리와 고양이 한 마리가 함께 있는 것을 봤을 때 동물들의 생김새와 특성의 공통점과 차이점을 학습하고 ‘토끼도 털은 있지만 고양이와는 다르게 귀가 길고, 뒷다리가 발달했다’라고 설명할 수 있는 것과 유사하다.

제로샷 이미지 캡셔닝 기술은 이미지 인식 AI 기술의 정확성과 공정성을 이끌어 AI 활용성을 높이는 장점이 있다. 하루에도 방대한 분량의 이미지 데이터들이 온라인에 생성되고 있는데, 이 기술을 활용하면 AI가 자동으로 캡션과 키워드를 생성해 검색의 편의성과 정확도를 높일 수 있어서다. 광고와 같은 산업군에서는 이 기술을 활용해 제품 설명을 자동화하거나 광고·마케팅 캠페인을 위한 새로운 콘텐츠를 만들 수 있고, 의학 쪽에서도 의료 영상 기반 서비스를 창출할 수 있다.

LG AI연구원은 엑사원의 학습 중 파라미터 수가 늘어나는 등 필요에 따라 비용 효율적으로 IT 리소스를 확장할 수 있도록, 아마존 엘라스틱 컴퓨트 클라우드(Amazon EC2)를 사한다. 조정 가능한 컴퓨팅 용량을 클라우드에서 제공하는 서비스다. LG AI연구원 고객사는 AWS의 확장성을 활용해 시간당 2000개 이상의 이미지 캡션을 생성할 수 있다. 

LG AI연구원은 머신러닝(ML) 모델을 구축·훈련·배포하는 완전 관리형 서비스 아마존 세이지메이커(Amazon SageMaker)를 사용해 3억 5000만 개의 고해상도 이미지와 텍스트 세트를 엑사원에게 학습시켰다. LG AI연구원은 클라우드를 사용해 온프레미스 인프라보다 더 빠르고 저렴한 비용으로 결과를 미세 조정하고, 체크포인트를 구현하며, 데이터 편향과 같은 문제를 빠르게 해결했다.

이화영 LG AI연구원 상무는 “LG AI연구원의 엑사원은 크리에이티브 분야에서 생성형 AI를 더 쉽게 활용할 수 있게 해주는 강력한 도구”라며 “AWS의 ML 역량은 우리가 혁신적인 솔루션을 빠르게 개발하고 배포하는 데 큰 도움이 됐다”고 평가했다. 이어 “우리의 비전은 크리에이티브 영역이 새로운 차원의 효율성을 확보하고 기업이 이미지 검색 등의 반복적인 업무 대신 창작에 집중할 수 있도록 돕는 것”이라고 밝혔다.

바시 필로민(Vasi Philomin) AWS 생성형 AI 부문 부사장은 “콘텐츠 생성 산업이 급성장하는 가운데 LG AI연구원은 엑사원 플랫폼과 같은 기술이 AWS에 구축된 신속한 이미지-투-텍스트 캡션 솔루션을 활용해 어떻게 AI, 디자이너, 아티스트 간의 협업을 촉진할 수 있는지 보여주고 있다”면서 “전 세계에 새로운 차원의 창의성이 발휘될 수 있도록 앞으로도 LG AI연구원의 생성형 AI 혁신과 확장을 지원할 수 있기를 기대한다”고 말했다.

홈으로 이동 상단으로 이동