엔비디아, 생물학 분야 ‘거대 언어모델’ 지원

김동원 객원기자
2022.09.23 17:31

바이오 분야 대량 데이터 빠르게 학습, ‘신약 개발’ 속도 크게 높일 것으로 기대

엔비디아가 GTC 행사에서 생물학 분야 대형언어 모델 훈련에 적합한 SW 도구인 ‘바이오네모’를 공개했다. /엔비디아

엔비디아가 생물학 분야 거대 언어모델을 위한 소프트웨어 도구를 선보였다. 생물학과 화학 관련 전문 데이터를 대규모로 학습해 기업과 연구소가 원하는 결괏값을 빠르게 제공, 신약 개발 속도를 크게 높일 수 있을 것으로 전망된다.

엔비디아는 22일(현지시간) GTC 2022 행사에서 생체분자 대형언어 모델(LLM) 훈련에 적합한 소프트웨어 도구인 ‘바이오네모(BioNeMo)’를 공개했다. 슈퍼컴퓨팅 규모의 대형 생체분자 언어 모델의 훈련과 배포를 위한 도구다. 화학과 단백질, DNA, RNA 등 데이터 형식을 지원한다.

언어모델은 사람의 언어 데이터를 입력하면 이를 학습하고 이해해 필요한 결과물을 내는 인공지능(AI) 모델이다. 거대 언어모델은 학습하는 데이터양을 크게 늘려 더 빠르게 결과물을 낼 수 있다. 사람이 100권의 논문집을 보기 위해 100일이 걸린다면 거대 언어모델은 해당 데이터를 순식간에 학습해 원하는 값을 빠르게 산출해낼 수 있다.

엔비디아가 선보인 바이오네모는 수많은 언어 데이터 중 생물학 분야 데이터 학습을 전문으로 하는 모델이다. 바이오나 화학 등의 전문 용어 등을 이해해 결과물을 낸다. 생물학 분야 데이터에 자주 있는 화학적 구조를 표기하는 기법과 문자도 추출할 수 있는 기능이 탑재됐다.

바이오네모는 그래픽처리장치(GPU) 최적화 소프트웨어를 위한 허브인 ‘엔비디아 NGC’와 클라우드 형태로 제공된다.

엔비디아는 매사추세츠공과대(MIT), 하버드대 브로드 연구소, 아스트라제네카 등 많은 기업과 연구소가 바이오네모를 활용하고 있다고 밝혔다. MIT와 하버드 브로드 연구소는 바이오네모를 사용해 차세대 DNA 언어 모델을 개발하고 있다. 이 모델들을 브로드 연구소와 마이크로소프트, 베릴리가 공동 개발한 클라우드 플랫폼인 ‘테라’에 통합해 생물의학 분야 연구자들이 대량 데이터를 안전하게 공유, 평가, 분석할 수 있게 지원할 예정이다. 아스트라제네카는 바이오네모로 저분자와 단백질, DNA 데이터셋을 훈련할 계획이다.

모하메드 알쿠라이시 컬럼비아대 시스템생물학과 교수는 “바이오네모가 출시되면서 헬스케어와 생명과학 산업 연구자들은 빠르게 증가하는 생물학과 화학 데이터셋을 제대로 활용할 수 있게 됐다”며 “특정 질병의 분자적 특징을 정확히 겨냥한 치료법을 쉽게 발견하고 고안할 수 있을 것”이라고 말했다.

생명공학 스타트업인 ‘펩톤’의 이스트반 레들 머신러닝 연구자는 “단백질 분야의 대형 언어 모델 도입이 그 어느 때보다 활발한 상황에서 거대 언어모델의 효율적 훈련은 중요한 문제”라며 “바이오네모 프레임워크는 엔지니어링 핵심인 확장성과 신속한 실험을 제공할 수 있을 것”이라고 전망했다.

페이스북 플러스친구 네이버포스트