엔비디아, 생물학 분야 ‘거대 언어모델’ 지원
바이오 분야 대량 데이터 빠르게 학습, ‘신약 개발’ 속도 크게 높일 것으로 기대
엔비디아가 생물학 분야 거대 언어모델을 위한 소프트웨어 도구를 선보였다. 생물학과 화학 관련 전문 데이터를 대규모로 학습해 기업과 연구소가 원하는 결괏값을 빠르게 제공, 신약 개발 속도를 크게 높일 수 있을 것으로 전망된다.
엔비디아는 22일(현지시간) GTC 2022 행사에서 생체분자 대형언어 모델(LLM) 훈련에 적합한 소프트웨어 도구인 ‘바이오네모(BioNeMo)’를 공개했다. 슈퍼컴퓨팅 규모의 대형 생체분자 언어 모델의 훈련과 배포를 위한 도구다. 화학과 단백질, DNA, RNA 등 데이터 형식을 지원한다.
언어모델은 사람의 언어 데이터를 입력하면 이를 학습하고 이해해 필요한 결과물을 내는 인공지능(AI) 모델이다. 거대 언어모델은 학습하는 데이터양을 크게 늘려 더 빠르게 결과물을 낼 수 있다. 사람이 100권의 논문집을 보기 위해 100일이 걸린다면 거대 언어모델은 해당 데이터를 순식간에 학습해 원하는 값을 빠르게 산출해낼 수 있다.
엔비디아가 선보인 바이오네모는 수많은 언어 데이터 중 생물학 분야 데이터 학습을 전문으로 하는 모델이다. 바이오나 화학 등의 전문 용어 등을 이해해 결과물을 낸다. 생물학 분야 데이터에 자주 있는 화학적 구조를 표기하는 기법과 문자도 추출할 수 있는 기능이 탑재됐다.
바이오네모는 그래픽처리장치(GPU) 최적화 소프트웨어를 위한 허브인 ‘엔비디아 NGC’와 클라우드 형태로 제공된다.
엔비디아는 매사추세츠공과대(MIT), 하버드대 브로드 연구소, 아스트라제네카 등 많은 기업과 연구소가 바이오네모를 활용하고 있다고 밝혔다. MIT와 하버드 브로드 연구소는 바이오네모를 사용해 차세대 DNA 언어 모델을 개발하고 있다. 이 모델들을 브로드 연구소와 마이크로소프트, 베릴리가 공동 개발한 클라우드 플랫폼인 ‘테라’에 통합해 생물의학 분야 연구자들이 대량 데이터를 안전하게 공유, 평가, 분석할 수 있게 지원할 예정이다. 아스트라제네카는 바이오네모로 저분자와 단백질, DNA 데이터셋을 훈련할 계획이다.
모하메드 알쿠라이시 컬럼비아대 시스템생물학과 교수는 “바이오네모가 출시되면서 헬스케어와 생명과학 산업 연구자들은 빠르게 증가하는 생물학과 화학 데이터셋을 제대로 활용할 수 있게 됐다”며 “특정 질병의 분자적 특징을 정확히 겨냥한 치료법을 쉽게 발견하고 고안할 수 있을 것”이라고 말했다.
생명공학 스타트업인 ‘펩톤’의 이스트반 레들 머신러닝 연구자는 “단백질 분야의 대형 언어 모델 도입이 그 어느 때보다 활발한 상황에서 거대 언어모델의 효율적 훈련은 중요한 문제”라며 “바이오네모 프레임워크는 엔지니어링 핵심인 확장성과 신속한 실험을 제공할 수 있을 것”이라고 전망했다.