무하유, 법률 학습용 데이터셋 구축으로 ‘법 문턱’ 낮춘다
국회도서관 융복합서비스 데이터셋 구축 사업 주관 사업자로 선정
자연어이해(NLU) 기반 인공지능(AI) 기업 ‘무하유’가 어려운 법률 용어를 대화형 문답으로 쉽게 설명할 수 있는 기틀을 닦는다.
무하유는 ‘국회도서관 융복합서비스 데이터셋 구축 사업’의 주관 사업자로 선정, 법률 관련 AI 학습용 데이터셋 구축에 나선다고 20일 밝혔다. 이번 사업을 통해 국회도서관에서 제공 중인 ‘인공지능 법률 Q&A’ 서비스에서 자연어 질의응답 서비스를 실현하기 위한 질의답변 등의 데이터셋을 구축한다. 법률에 해당하는 이슈 키워드와 제개정일·의안·회의록·주요 사건 및 인물에 대한 정보는 물론 통계표의 제목 및 매칭 키워드 등을 구축할 계획이다.
일반적인 데이터 구축·라벨링 업체는 수요기관의 요구사항에 따라 라벨링 후 납품까지의 역할만 수행하고, 납품 이후 실제 데이터셋 활용을 고려하지 않는 경우가 많다. 이에 반해 무하유는 700만 건 이상의 AI 학습 데이터를 구축해 온 노하우를 토대로 데이터 관리 올인원 플랫폼인 ‘데이터 팩토리’를 운영하고 있다. AI 적용 솔루션을 운영하는 과정에서 필요한 데이터를 자체적으로 구축한 후 정제·가공하기 때문에 인력소싱, 계약, 데이터 구축, 품질관리, 저작권 관리까지 가능하다.
특히 데이터 팩토리는 AI와 인간의 협업을 통해 데이터셋을 구축하는 휴먼인더루프(Human In The Loop) 프로세스를 통해 업무 자동화를 혁신하고 있다. AI를 활용해 추출한 데이터를 사람이 직접 검증하고 수정할 수 있는 시스템을 추가해 데이터 품질을 보장한다. 대량으로 생성해야 하는 데이터는 AI가 담당하고, 생성된 데이터의 품질을 고도화하는 건 사람이 담당해 시간을 단축하고 품질을 제고하는 식이다. 실제 일부 작업의 경우 기존에 사람이 처리할 때 약 한 달이 소요됐지만, 데이터 팩토리를 활용해 3일 만에 완료하는 성과를 달성했다.
챗GPT의 등장 이후 AI 학습데이터에 대한 저작권 및 소유권 우려도 해소할 수 있다. 전통적인 데이터베이스 구축 사업은 인력 공급 및 일정 준수에 초점이 맞춰져 있으며, 저작권 등 잠재적 위협에는 상대적으로 취약했다. 반면 무하유의 데이터 팩토리는 작업자별 품질 관리가 가능하고, 저작권 관계를 명확히 할 수 있어 법적 분쟁 요소나 품질 저하 요소 최소화에 기여할 수 있다.
신동호 무하유 대표는 “앞으로 데이터 팩토리 플랫폼을 통해 기업체들의 데이터 구축 욕구를 해소할 계획”이라면서 “AI 학습데이터 시장은 더 세분화될 것으로 전망되며, 이에 따른 데이터 구축방법론을 제공할 수 있을 것으로 기대한다”고 말했다.