인더스트리

“AI를 삼킨 오픈소스, 세상을 바꾼다”

기사입력 2024.01.24 08:00
김두현 건국대 컴퓨터공학부 교수
“오픈소스의 올바른 활용, AI 저변 확대의 핵심 열쇠”
  • 김두현 건국대 컴퓨터공학부 교수는  “오픈소스의 올바른 활용이 AI 산업 저변 확대의 열쇠가 될 것이라고 말했다. /김동원 기자
    ▲ 김두현 건국대 컴퓨터공학부 교수는 “오픈소스의 올바른 활용이 AI 산업 저변 확대의 열쇠가 될 것이라고 말했다. /김동원 기자

    “오픈소스가 인공지능(AI)을 삼키고, AI가 세상을 삼키고 있다.”

    김두현 건국대 컴퓨터공학부 교수의 말이다. 오픈소스 AI 생태계가 확장하면서 AI가 발전하고 이 모델들이 세상에 변화를 불러오고 있단 뜻으로 해석된다.

    김 교수는 23일 지능정보산업협회(AIIA)와 지능정보기술포럼(TTA ICT 표준화포럼 사업)이 양재 엘타워에서 공동 주최한 조찬포럼에서 연사로 나서 확장하는 오픈소스 AI 생태계를 소개했다. 또 이 생태계에서 장단점이 공존하는 만큼 현명한 전략이 필요하다고 밝혔다.

    실제로 오픈소스 AI 생태계는 지속 확장되고 있다. 과거 개발자와 연구자 사이에서 교류가 이뤄졌던 오픈소스는 이제 빅테크와 같은 기업에서 만든 AI 모델로 확장했다. 메타의 라마2와 같은 AI 모델부터 데이터, 코드 등이 공유되고 있다.

    오픈소스는 저작권자가 소스코드를 공개한 소프트웨어(SW)를 뜻한다. 이 SW는 정의한 라이선스 규칙에 따라 다른 개발자가 자유롭게 사용하고 수정·재배포가 가능하다. 김 교수는 이러한 오픈소스 대상이 AI가 발전하면서 딥러닝과 관련된 전 영역으로 확대됐다고 설명했다. 코드 등의 오픈소스 SW부터 데이터, 모델, 설계도까지 오픈소스로 공개되며 ‘오픈소스 AI’ 생태계가 발전하고 있다고 설명했다.

    오픈소스는 AI 발전을 이끈 주역이다. AI 조직 간 서로 개발한 정보를 공유하며 상생하는 분위기를 이끌었다. 메타가 공개한 라마2가 대표 사례다. 메타는 7B, 13B, 70B 모델과 일부 소스코드를 공개했는데, 이는 많은 기업에서 연구용뿐 아니라 상업적 용도로 활용하고 있다. 김 교수는 “메타가 공개한 라마는 많은 곳에서 다양하게 응용하고 있다”며 “음악·오디오 생성 AI인 ‘오디오크래프트’, 언어 음성번역 모델인 ‘심리스M4T’, 코딩 특화 ‘코드 라마’ 등 다양한 모달리티가 파생·확산하고 있다”고 말했다. 양승도 아마존웹서비스(AWS) 코리아 솔루션즈아키텍트(SA) 리더는 “라마2는 챗봇을 만드는데 어떤 파운데이션 모델보다 좋은 성능을 보인다”며 “많은 기업에서 내부 챗봇을 이 모델을 활용해 만들고 있다”고 밝혔다.

    하지만 오픈소스는 위험도 동시에 갖고 있다. 품질과 라이선스 리스크다. 품질 리스크는 유지관리 주체 부재에 따라 나타난다. 커뮤니티 활동이 지속되지 않는 경우 지식 부족, 할루시네이션(환각) 현상, 편견 등 품질 개선에 제약이 있을 수 있다. 김 교수는 “오픈소스를 서비스에 활용할 때 버전 상향, 유지보수 등에 한계가 존재할 수 있다”며 “샘 올트먼 오픈AI 최고경영자(CEO)도 일부 오픈소스는 매우 훌륭하지만, 일부는 미래에 우리가 원하는 방향으로 되지 않을 수 있다며 염려한 바 있다”고 말했다.

    라이선스 위험도 있다. 김 교수는 오픈소스 AI의 라이선스가 소스코드, 데이터, 모델 등 전 부분의 사용을 보장하지 않을 수 있다고 염려했다. 일례로 람다2는 무료로 내려받기와 수정, 배포가 가능하지만 기존 오픈소스 라이선스처럼 다뤄선 안 된다고 설명했다. 메타 라이선스는 람다2를 다른 언어 모델 훈련 목적으로 사용하는 행위를 금지하고, 월간활성사용자(MAU)가 7억 명 이상인 앱이나 서비스에 적용할 때는 특별 라이선스를 요구하고 있어서다.

    법적 리스크도 있다. 어떤 데이터를 학습했는지 모르기 때문에 개인정보와 같은 민감 정보가 유출될 수 있다. 문제는 책임 주체가 불분명하다는 것이다. 이 때문에 AI를 악의적으로 사용하는 경우 처벌 대상이 명확하지 않다. 저작권 침해 우려 등으로 상용 서비스에 제약이 따르는 것도 책임 주체가 분명하지 않아서다.

  • 김두현 건국대 컴퓨터공학부 교수가 지능정보산업협회가 주최한 조찬포럼에서 강연하고 있다. /김동원 기자
    ▲ 김두현 건국대 컴퓨터공학부 교수가 지능정보산업협회가 주최한 조찬포럼에서 강연하고 있다. /김동원 기자

    하지만 김 교수는 오픈소스 AI 생태계 가치는 단점보다 크다고 밝혔다. 진입장벽을 낮추는 것이 큰 장점이다. 스타트업 등이 오픈소스를 토대로 기술을 확장할 수 있어 특정 공급사로 인한 시장 종속을 탈피할 수 있고, 기술격차도 해소할 수 있다. 개방된 소스코드와 모델, 데이터는 인재 양성에도 도움이 된다. 대학에서 실무형 교육을 진행할 때 오픈소스를 활용하는 것이 유리해서다. 김 교수는 “실무 교육 관점에서 봤을 때 어떤 교과서보다 오픈소스가 낫다”고 표현했다.

    모델을 서로 공개하면서 AI 투명성과 신뢰성 역시 높일 수 있다고 했다. 서로 모델을 공개하면서 이에 대한 신뢰도 등을 논의할 수 있어서다. 환경 문제 해결에도 도움이 된다. 양질의 대형언어모델(LLM)을 공유하면서 학습 중복성을 줄이고, 개방적인 연구 협력을 통해 LLM 모델의 에너지 사용량을 줄이는 방안을 고안할 수 있기 때문이다. 참고로 175B 크기의 GPT-3 모델에는 약 28만 4000kWh 에너지가 소모되는 것으로 알려졌다. 여기서 나오는 이산화탄소량은 약 11만 3600kg에 달한다. 이는 일반 승용차 약 2만 4700대의 연간 평균 배출량이다. 

    김 교수는 오픈소스가 활용도가 높은 만큼, 이를 활용할 수 있는 기반을 만들어야 글로벌 AI 전쟁에서 유리한 고지를 점할 수 있다고 보았다. 그는 “오픈소스 AI 커뮤니티를 활성화하고 별도 재단 등을 설립해 학습된 모델과 관련 코드 등을 공개한다면 그 재단과 협의체는 높은 경쟁력을 보유할 수 있을 것”이라면서 “민간과 정부와 합심해 오픈소스 AI에 대한 가치를 제고하고 효과적으로 활용할 수 있는 방안을 찾아야 한다”고 말했다. 이어 “그 방안이 AI 산업 저변 확대의 열쇠가 될 것”이라고 강조했다.

최신뉴스