“불투명한 생성형 AI, 사용해도 괜찮나”

구아현 기자
2023.10.25 09:31

생성형 AI 데이터 출처·규제 불투명, 저작권 문제 심각
빅테크 기업 대형언어모델(LLM) 투명성 지수 낮아

빅테크 기업들의 생성형 AI 시장이 급성장하고 있지만 관련 저작권 문제에 대한 논의와 제도는 마련되고 있지 않고 있다. /게티이미지뱅크

생성형 인공지능(AI)이 활용하는 이들이 많아지면서 AI 문턱이 낮아졌다는 평가가 나오고 있다. 하지만 일각에서는 불투명한 데이터로 학습한 생성형 AI는 저작권 등의 문제가 있어 AI 활용 전 안전망 확보가 필요하다는 의견도 나온다.

지난 19일 미국에선 음악 출판사가 AI 챗봇이 노래 가사를 불법 도용했다며 저작권 문제로 AI 기업인 ‘앤트로픽’을 상대로 저작권 침해 소송을 제기한 것으로 알려졌다. 영국 가디언 등에 따르면 유니버설 뮤직그룹을 비롯한 ABKCO, 콩코드 퍼블리싱은 엔트로픽의 AI 챗봇이 노래 가사를 불법 도용했다며 미국 테네시주 연방법원에 소송을 제기했다.

국내에서도 저작권 문제는 곳곳에 도사리고 있다. 네이버의 ‘하이퍼클로바X’가 대표 사례다. 하이퍼클로바X가 쓴 글이 신문사나 방송사의 저작권을 침해하지 않느냐가 한때 쟁점이 됐었다. 하이퍼클로바X는 챗GPT보다 6500배 많은 한국어를 학습했는데 여기엔 네이버 뉴스와 블로그 게시물 등이 포함된다. 여기엔 뉴스 저작권 침해 가능성이 있다. 언론사가 뉴스의 모든 저작권을 갖고 있지만, 국내 특성상 뉴스 소비가 대부분 포털로 이뤄지고 있어서다. 이 문제에 대해 네이버는 학습 데이터양과 파라미터를 공개하지 않으며 방어적 태도를 취하고 있다. 이 문제는 해외에서도 불거진 바 있다. 구글은 저작권 문제로 뉴욕타임스에 3년간 1300억 원을 지급하기로 했고, 오픈AI는 뉴스통신사 AP와 라이선스 계약을 체결했다. AP통신은 저작권 이슈를 피하기 위해 이미지 제작 시 AI 사용을 금지한다고 밝혔다.

◇ 불투명한 생성형 AI 학습데이터

생성형 AI의 저작권 문제는 지속 불거지고 있지만, 제품 투명도는 지속 낮아지는 것으로 밝혀졌다. 미국 스탠퍼드대 기초모델연구센터(CRFM)에 따르면 오픈 AI, 구글, 메타 등 빅테크 기업의 대형언어모델(LLM)은 투명성 지수가 낮은 것으로 조사됐다. 또 미국 월간지 IEEE 스펙트럼에 따르면 미국 스탠퍼드대 기초모델연구센터(CRFM)가 빅테크 LLM 투명성을 조사한 결과 오픈AI의 GPT-4 같은 폐쇄형 모델이 오픈소스형 모델보다 더 낮은 투명성 점수를 기록했다.

오픈AI, 구글과 같은 생성형 AI 공급사는 LLM 데이터를 공개하지 않는다. 보안상 이유다. 오픈AI는 GPT3에서 GPT4로 업그레이드가 될 때도 하드웨어 시스템, 컴퓨팅 규모, 데이터셋 훈련 방법 등 모든 정보를 비공개로 돌렸다. GPT4의 알고리즘의 신뢰성이 타당한지는 오픈AI만 알고 있는 셈이다.

구글 바드는 소송 문제까지 터졌다. 지난 7월 AI 훈련을 위해 사용자 수억 명의 데이터를 동의 없이 수집했다며 집단 소송을 당한 바 있다. 챗GPT, 바드와 같은 LLM에서 이미지 분석과 해석에 탁월한 GPT-4V, 구글이 연말 출시를 계획하고 있는 제미니 같은 경우 저작권 문제가 더욱 확장될 수 있다. 구글은 모든 유튜브 영상을 학습한 제미니를 필두로 새로운 대형멀티모달모델(LMM)시대 경쟁에 우위에 서겠다는 입장이다. 하지만 유튜브 콘텐츠 제작에 AI를 사용하는 등 다양한 활용 부분에서 저작권 문제 방안은 아직 구체적으로 마련되지 않았다.

◇ AI 저작권 문제 해결할 정부 노력 부족

저작권 이슈가 떠오르자 기업들은 자체 데이터만 사용하는 등 문제 줄이기 마련에 나서고 있다. 어도비는 올해 3월 크리에이티브 제작 툴인 이미지 AI 모델 ‘파이어플라이’를 공개하며 이미지 생성 부분에서 저작권 문제를 방어하고자 모든 데이터를 자사의 데이터만을 사용해 학습시켰다고 밝혔다. 또 사용자가 입력한 텍스트를 이미지로 생성하는 과정을 자동 기록해 두기도 했다.

일각에서는 기업들의 활동에만 의지하지 않고, 저작권 문제 해결에 정부가 나서야 한다고 주장한다. AI 저작권 문제 등 윤리적 이슈를 해결할 수 있는 정책적 제도가 필요한데 아직 구체적인 법과 제도가 마련되지 않아서다. AI 저작권을 강조하는 한 기업 관계자는 “이번 국정감사에서는 가짜뉴스와 연구개발(R&D) 예산 삭감 이슈에 밀려 AI 저작권은 관심권에서 멀어졌고, 지난 10일 양일간 방송통신위원회와 과학기술정보통신부에 대한 국정감사가 추진됐지만 생성형 AI 규제에 대한 논의는 없었다”고 지적했다.

한편 유럽에서는 생성형 AI 규제에 대해 발 빠른 대응을 하고 있다. EU는 AI를 위험성 정도는 총 4단계로 나눠 규제를 시행한다. 높은 위험성이 있다고 판단되는 AI 서비스에 대해 출시 전 EU 당국으로부터 심사를 받는 구조를 마련했다. 영국은 오는 11월 AI 규제를 위한 정상회의를 개최한다. 회의 참석자들은 AI 기술의 위험성과 국제 기구의 필요성 등을 논의한다. 미국, 독일, 영국, 프랑스, 일본 등 주요 7개국(G7)도 지난 9월 신뢰할 수 있는 AI를 위한 국제적 규범 마련 계획을 밝히며 AI가 준수해야 할 국제적 행위규범을 만들기로 의견을 모았다. 국내 법조 관계자는 “EU처럼 시행하게 되면 AI 발전을 저감시키는 부정 효과가 나타날 수 있기 때문에 공급사와 사용자 모두를 위한 합의점을 마련해야 한다”며 “규제가 나쁘다고만 주장하지 말고 올바른 AI 활용을 위한 한국만의 방법을 찾아야 한다”고 조언했다.

페이스북 플러스친구 네이버포스트

“불투명한 생성형 AI, 사용해도 괜찮나”

생성형 AI 데이터 출처·규제 불투명, 저작권 문제 심각빅테크 기업 대형언어모델(LLM) 투명성 지수 낮아

생성형 AI 데이터 출처·규제 불투명, 저작권 문제 심각
빅테크 기업 대형언어모델(LLM) 투명성 지수 낮아