포커스

“품질 문제부터 예산 삭감까지”… 수세 몰린 데이터 댐 사업

기사입력 2023.10.30 18:37
AI 허브 데이터 신뢰성 의혹…기업들 활용 못해
내년 AI 데이터 구축 예산 4분의 1로 대폭 감소
  • 국내 데이터 댐 사업이 데이터 품질 문제와 예산 축소 문제를 겪고 있다. /게티이미지뱅크
    ▲ 국내 데이터 댐 사업이 데이터 품질 문제와 예산 축소 문제를 겪고 있다. /게티이미지뱅크

    국내 인공지능(AI) 데이터 댐 사업이 수세에 몰렸다. 내년 예산 삭감에 이어 데이터 품질 문제까지 거론됐다. 특히 내년 예산은 기존 2805억 원 수준에서 약 4분의 1 수준으로 깎일 것으로 보여 국내 AI 발전에 부정 영향을 줄 것이란 의견이 제기됐다.

    데이터는 AI 원료라 불릴 만큼, AI 발전에 중요한 요소다. 사람이 교육받고 해당 내용을 아는 것처럼, AI도 데이터를 학습해야 제구실을 할 수 있어서다. 이 때문에 정부는 2020년부터 데이터 댐 사업을 추진해왔다. 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 선두에 서서 ‘AI 허브’ 홈페이지를 구축하고 총 14대 분야의 데이터를 제공하고 있다. 30일 기준 AI 허브에는 △한국어 데이터 151종 △영상이미지 137종 △교통물류 87종 △헬스케어 102종 △재난·안전·환경 85종 △농·축·수산 71종 △문화·관광 17종 △스포츠 12종 △제조 6종 △로보틱스 6종 △교육 10종 △법률 2종 △금융 1종 △지식재산 4종 총 691종의 AI 학습 데이터가 구축돼 있다.

    학습 데이터 부족은 AI 업계가 산업 발전의 저해 요소로 꼽은 만큼, AI 데이터 구축사업 규모는 지속 확대돼왔다. 초기 라벨링 데이터 6대 분야(한국어, 영상 이미지, 교통물류, 헬스케어, 재난안전환경, 농축수산)부터 비라벨링 데이터 8대 분야(문화·관광, 스포츠, 제조, 로보틱스, 교육, 법률, 금융, 지식재산)까지 총 14대 분야의 데이터를 구축했다.

    ◇ “AI 허브 데이터 품질 문제 있어”

    정부 차원에서 지속해 온 데이터 댐 사업은 AI 스타트업을 이끌어 온 것도 사실이지만, 최근 데이터 품질이 좋지 않다는 평가도 받고 있다. 산업에 활용할 때 중복 데이터가 많고 품질이 좋지 않아 사용이 어렵다는 지적이다. 한 AI 스타트업 대표는 “AI 허브 데이터에는 중복 데이터가 많다”며 “데이터를 많이 수집한 것은 좋지만 이를 실용적으로 활용할 수 있는 단계는 아직 완전하지 않다”고 지적했다. 또 “정부가 바뀌면서 데이터 댐 사업에 관한 관심이 준 것도 아쉽다”고 말했다.

    국내 AI 대학원에서 근무하는 한 교수는 “기업들이 AI 데이터를 활용하려면 우선 데이터의 품질이 높아야 하지만 데이터 품질 문제가 계속 제기되고 있다”며 “AI 허브에서 데이터를 가져다 2차 가공을 해야 하는데 아직은 부족함이 많다”고 지적했다. 이어 “자율주행 같은 보편적인 데이터는 활용할 수 있는 수준이 되지만 특수한 데이터들은 데이터 품질 의혹이 있다”고 했다.

    데이터 신뢰성 문제에 대해 NIA는 인공지능학습용데이터 품질관리 가이드라인과 품질관리 안내서를 한국정보통신기술협회(TTA)와 구축해 검증하고 있다고 밝혔다. NIA 관계자는 “TTA와 ‘AI 학습용 데이터 품질관리 가이드라인’을 구축하고 검증하고 있다”며 “관련 AI 데이터 사업을 수주했던 기업들도 데이터를 구축하고 5년 동안 데이터에 문제가 있을 시 A/S 개념으로 다시 재검토하고 수정하도록 하고 있다”고 설명했다.

  • AI 허브 사업. /홈페이지 캡처
    ▲ AI 허브 사업. /홈페이지 캡처

    ◇ R&D 사업 아닌 단기 일자리 사업 전락

    다른 문제도 있다. 데이터 사업이 단기 일자리 사업으로 전락 됐다는 것이다. 이 때문에 데이터 품질 문제가 발생했다는 지적도 있다.

    또 다른 AI 대학원 교수는 “처음부터 데이터 사업 자체가 단기 일자리 창출을 위한 사업이다 보니 데이터를 마구 수집하고 나중에는 데이터 문제가 있으니 검증하라고 했다”며 “검증에 맞게 데이터셋을 맞추느라 끼워 맞추기를 하면서 문제가 생기기도 했다”고 설명했다.

    AI 기업도 이러한 단기 채용에 대한 애로사항을 전했다. AI 기업 관계자는 “데이터 구축 사업을 진행하는 과정에서 인건비 지원 사업이다 보니 수익성도 결여되는 문제가 생겼다”며 “앞으로 데이터 구축 사업이 예산이 많이 줄면 스타트업들은 더 힘들어진다”고 토로했다.

    ◇ 내년 AI 데이터 구축 사업 예산 4분의 1로 확 줄어

    문제는 데이터 품질 개선이 필요한 가운데 관련 예산이 확 줄어든다는 것이다. 내년 AI 데이터구축사업 예산은 정부안이 확정됐고, 국회 예산 심의 통과를 기다리고 있다. NIA 관련 사업 관계자는 “전체 R&D가 많이 줄어 내년 예산이 대폭 줄어 4분의 1 이하 수준이 될 것 같다”며 “생성형 AI 데이터 구축 방향이고 세부적인 사업 계획은 아직 나오지 않았다”고 말했다.

    데이터 구축 방향도 생성형 AI로 확 바뀌어 진행된다. 챗GPT 열풍으로 생성형 AI 개발이 글로벌 경쟁에서 매우 중요해졌기 때문이다. 하지만 관련 예산이 확 줄어들어 기존에 구축해 온 데이터 사업의 업그레이드는 물론 데이터라벨링 사업은 거의 예산이 없을 것으로 예상된다.

    R&D 예산이 줄면 제일 타격은 받는 건 스타트업이다. AI 스타트업 대표는 “스타트업은 연구개발하고 시장에서 성장할 때까지 시간이 필요한데 R&D 예산이 많이 삭감돼 스타트업들이 지금 유지도 하기 힘든 실정”이라며 “기존 라벨링 데이터 구축사업도 관련 예산이 없어질 것이라고 보고 있어 사업을 진행했던 기업들이 걱정하고 있다”고 말했다.

    또 다른 AI 스타트업 대표는 “스타트업이 R&D 예산 삭감으로 투자 시장도 얼어붙어 많이 도산할 것 같다”며 “AI 관련 전체적인 예산은 많이 줄지 않았는데 기업들에 돌아갔던 R&D사업 예산이 많이 줄어 빠르게 사업을 접으려는 기업들이 생겨나고 있는 상황”이라고 토로했다.

최신뉴스