-
옷 이미지를 똑똑하게 인식하는 인공지능(AI) 연구 성과가 국내 기업에 의해 이뤄졌다. 챗GPT 등 다양한 AI 모델에 사용된 트랜스포머 신경망을 활용해 옷 이미지를 인식하는 기술에 관한 연구다.
국내 패션 기업 ‘딜리셔스’는 컴퓨터 비전 분야 세계 권위 학회인 ‘국제컴퓨터비전학회’(ICCV)에서 이미지 검색 관련 AI 기술 논문을 발표한다고 했다. ICCV는 유럽 컴퓨터 비전 학회(ECCV), 컴퓨터 비전 및 패턴인식 학회(CVPR)와 더불어 세계 3대 컴퓨터 비전 학회 중 하나로 꼽힌다.
딜리셔스는 올해 10월 프랑스 파리에서 개최되는 ‘ICCV 2023’ 학술대회에서 ‘단일 네트워크로 다중 속성을 이해하는 컨디션 기반 크로스 어텐션 기법(Conditional Cross Attention Network for Multi-Space Embedding without Entanglement in Only a SINGLE Network, 송철환·황태백·윤주영·최성현·구영현 공저)’ 연구 논문을 발표한다. 트랜스포머 모델에 맞게 이미지 검색용 속성 가이드를 제시한 연구다.
이번 연구는 색상, 소재, 기장 등 옷의 여러 속성 중 구분하고자 하는 기준점이 무엇인지 가이드를 부여해 해당 부분을 더 집중해 이미지를 인식하는 모델 구조를 가능케 했다. 일례로 옷소매 길이를 기준으로 속성값을 구분하고자 한다면 팔 부분을 더 집중해 보도록 가이드를 줘 분류하는 것이다. 본 기술을 적용하면 서버 내 그래픽처리장치(GPU) 메모리 사용이 줄어들고, 속도가 빨라져 이미지 인식을 보다 효율적으로 할 수 있다. 기존에는 이미지 내 객체의 다양한 속성을 이해하고 구분하기 위해 속성별로 AI 모델이 필요해 효율성이 떨어졌다.
트랜스포머 모델의 구조적 특징에 맞는 컨디션 기반 크로스 어텐션 기법을 설계했다는 점도 기술적으로 의의가 있다. 컨볼루션신경망(CNN) 구조에 맞는 컨디션 기반 어텐션 기법은 기존에 연구됐지만, 트랜스포머 모델 구조에 최적화된 방법을 제시한 것은 적었다. 성능 평가에서도 SOTA(State of the Art), 즉 기존 연구들과 비교해 가장 뛰어난 성능을 달성했다.
트랜스포머는 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망이다. 구글이 2017년 발표한 논문에서 처음 등장했다. 이 모델은 문장 속 서로 떨어져 있는 단어 데이터의 의미를 감지해 속뜻을 찾아낼 수 있다. 일례로 ‘우리 아이는 빨간색 운동화를 좋아한다. 그래서 그것이 다 닳을 때까지 신었다’는 문장에서 그것은 빨간색 운동화를 뜻하지만, AI는 사람과 달리 그 뜻을 찾아내기 어렵다. 언어학습에 주로 사용되는 재귀신경망(RNN)의 경우 데이터를 순차적으로 이해하기 때문에 그것이 우리인지, 아이인지, 빨간색이니, 운동화인지 알 수 없기 때문이다. 반면 트랜스포머는 데이터 관계를 추적해 그 의미를 학습하기 때문에 그것의 의미를 찾을 수 있다. 트랜스포머의 등장 전에는 맥락을 이해하는 AI를 개발하기 위해선 라벨링된 대규모 데이터 세트로 신경망을 훈련해야 했다. 그만큼 시간과 비용이 많이 소비됐다. 트랜스포머는 대규모 데이터를 라벨링할 필요가 없어 시간과 비용을 아낄 수 있다.
논문의 주저자 송철환 연구원은 “딜리셔스가 운영하는 신상마켓 앱에 이번에 연구한 AI 기술을 적용한다면 패션 상품을 더 효율적이고 정확하게 인식할 수 있다”며 “사용자가 원하는 상품을 더 빠르고 정확하게 찾을 수 있을 뿐만 아니라 개인화 추천 등도 구현할 수 있다”고 말했다.
딜리셔스는 패션 도소매 거래 플랫폼 ‘신상마켓’을 운영하는 업체다. 신상마켓은 지난해부터 일본, 중국을 시작으로 해외에 진출, 한국 패션을 해외에 알리는 역할을 하고 있다.
- 김동원 기자 theai@chosun.com