일상 대화, 웹, 신문, 서적 등 13종 18억 어절 자료 공개

모두의 말뭉치/사진제공=국립국어원

국립국어원(원장 소강춘)이 인공지능(AI)의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 국립국어원 ‘모두의 말뭉치’에서 공개했다.

국립국어원에서 이번에 공개한 자료는 한국어 분야의 빅데이터라고 할 수 있는데 이를 전문 분야에서는 말뭉치(corpus)라고 한다.

챗봇이나 AI 비서가 한국어를 자연스럽게 알아듣고 분석하여 말할 수 있으려면 반드시 다양한 한국어 말뭉치로 학습을 해야 하기 때문에 한국어 AI 기술의 성능 향상은 많은 양의 품질 좋은 한국어 말뭉치 확보에 달려 있다.

이에 국립국어원은 2018년부터 AI 산업계와 관련 연구 기관 등에서 공공재로 활용할 수 있는 대규모 한국어 학습 자료 구축 사업을 시작했으며 이번에 공개하는 자료는 작년까지 구축한 18억 어절 규모의 말뭉치이다.

'모두의 말뭉치'에서 받을 수 있는 자료에는 다양한 한국어 사용 양상이 담긴 최근 10년간의 신문 기사와 서적 20,188종, 그리고 일상생활에서의 음성 대화와 메신저 대화, 방송 자료, 대본 등이 포함되었고 각종 인터넷 사이트의 블로그, 게시판 등의 자료 210만 건도 포함되었다.

또한, 컴퓨터가 한국어를 더 잘 분석하고 이해할 수 있도록 한국어 자료를 더욱 정밀하게 형태, 구문, 의미, 개체 등의 언어 단위별로 분석한 자료 1,100만 어절과 한국어에 대한 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 40만 건도 포함되었다.

공개 자료는 국립국어원에서 저작권 문제를 해결하여 구축한 것이며 '모두의 말뭉치' 사이트에서 온라인 약정서를 작성, 승인을 받으면 누구나 파일을 내려받아 이용할 수 있다.

문화체육관광부와 국립국어원은 지난 1998년에서 2007년까지 '21세기 세종계획'을 추진하여 약 2억 어절의 자료를 구축, 공개한 바 있다. 10여 년이 지난 뒤 이번에 다시 공개하는 자료는 예전보다 9배 많은 것으로, 그동안 공개된 학습 자료의 부족으로 곤란을 겪던 한국어 처리 기술이 든든한 지원군을 만날 수 있게 되었다.

이번에 구축한 자료에서는 지난 ‘21세기 세종계획’에 비해 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높였다. 이는 최근 AI 스피커, 챗봇 등의 대화형 서비스가 늘어나면서 구어체 대화에 대한 관심과 요구가 높아지고 있는 추세를 반영한 것이다.

특히, 일상 대화 자료의 경우 표준어 위주의 수집에서 한 단계 더 나아가 지역별, 연령별로 다양한 대화 자료를 수집하여 AI 기술에서 지역별 방언도 처리할 수 있는 발판을 마련하였다.

초기 구축에 많은 비용과 시간이 소요되는 한국어 말뭉치의 대규모 공개로 한국어 AI 서비스를 개발하는 중소기업과 새싹기업 등이 따로 시간과 비용을 들이지 않고도 한국어 처리 기술 개발에 쉽게 접근할 수 있게 되었으며 대기업이나 관련 연구 기관 등도 대규모의 기초 자원을 제공받게 되어 다양한 서비스 개발과 성능 향상에 많은 도움을 받게 되었다.

국립국어원 소강춘 원장은 "국립국어원은 앞으로도 국어 전문 기관의 이점을 살려 날로 변화하는 언어를 신속하게 반영한 말뭉치와 다양한 고품질의 언어 자료를 지속적으로 구축, 공개하여 한국어 인공지능 기술을 뒷받침하는 한국어 자원의 중심 기관으로 자리매김하도록 노력하겠다"라고 말했다.

한편, 국립국어원은 이번에 공개한 자료의 의의와 활용을 주제로 한 온라인 전문가 토론회를 10월 초에 개최할 예정이다.

홈으로 이동 상단으로 이동