신약 개발 속도 높이는 ‘바이오네모’
-
엔비디아가 아마존웹서비스(Amazon Web Services, AWS)를 통해 엔비디아 클라라 소프트웨어와 서비스(NVIDIA Clara software and services)를 쉽게 배포한다고 29일 밝혔다. 제약·바이오테크 기업의 헬스케어 활성화를 지원하겠다는 목적이다.
이제 AWS 클라우드 리소스를 사용하는 의료·생명과학 개발자들이 엔비디아 제품을 AWS의 엔비디아 DGX 클라우드(DGX Cloud)에 통합할 수 있다. 엔비디아 가속 제품에는 신약 개발을 위한 생성형 AI 플랫폼인 엔비디아 바이오네모(BioNeMo)가 포함된다. 이는 현재 고성능 컴퓨팅을 위한 클러스터 관리 툴인 AWS 패러렐클러스터(ParallelCluster)와 아마존 세이지메이커(Amazon SageMaker) 머신러닝 서비스를 통해 제공되고 있다. AWS에서 엔비디아의 기존 헬스케어 중심 제품을 확장한다. 여기에 의료 이미징 워크플로우를 위한 엔비디아 모나이(MONAI), 가속 유전체학을 위한 엔비디아 파라브릭스(Parabricks) 등이 포함된다.
기업들은 AWS에서 바이오네모에 접속해 독점 데이터로 디지털 생물학 기초 모델을 구축하거나 맞춤화할 수 있다. 또한 AWS에서 엔비디아 GPU 가속 클라우드 서버를 통해 모델 훈련과 배포를 확장할 수 있게 된다.
◇ 생성형 AI용 신약 개발 속도 높이는 ‘바이오네모’
바이오네모 생물학·화학 관련 전문 데이터를 대규모로 학습한 생성형 AI용 도메인 특화 소프트웨어 도구다. 데이터 로더, 최적화된 훈련 방법을 갖췄다. 표적 식별, 단백질 구조 예측, 약물 후보 스크리닝을 가속화해 컴퓨터 기반 신약 개발을 발전시키는 데 기여한다.
신약 개발 팀은 자체 데이터를 사용해 바이오네모로 모델을 구축하거나 최적화하고 이를 클라우드 기반 고성능 컴퓨팅 클러스터에서 실행할 수 있다. 이러한 모델 중 하나인 ESM-2는 단백질 구조 예측을 지원하는 강력한 LLM이다. ESM-2은 256개의 엔비디아 H100 텐서 코어 GPU(H100 Tensor Core GPUs)에서 선형에 가까운 확장을 달성한다. 연구진들은 512개의 H100 GPU로 확장해 논문에서 발표된 훈련 시간인 한 달이 아닌 며칠 만에 훈련을 완료할 수 있다.
개발자들은 6억 5천만 개 또는 30억 개의 매개변수 체크포인트를 사용해 ESM-2를 대규모로 훈련할 수 있다. 바이오네모 훈련 프레임워크에서 지원되는 추가 AI 모델로는 저분자 생성 모델 메가몰BART(MegaMolBART)와 단백질 서열 생성 모델 ProtT5가 있다.
바이오네모의 사전 훈련된 모델과 최적화된 훈련 방법은 AWS 패러렐클러스터, 아마존 ECS와 같은 자체 관리형 서비스뿐 아니라 엔비디아 DGX 클라우드와 아마존 세이지메이커를 이용한 통합 관리 서비스에서도 사용할 수 있다. 이를 통해 연구개발팀은 더 많은 신약 후보를 탐색하고, 습식 실험실을 최적화하며, 유망한 임상 후보를 더 빠르게 찾을 수 있는 기초 모델을 구축할 수 있다.
◇ 의료 이미징과 유전체학 위한 엔비디아 클라라
신약 개발, 유전체학, 의료 이미징을 위한 AI 워크플로우를 가속화하는 엔비디아 클라라를 AWS에서 활용할 수 있다. 모나이는 엔비디아가 의료 이미징 워크플로우를 지원하기 위해 공동 설립하고 엔터프라이즈 지원을 제공하고 있는 프로젝트이다. 현재 180만 회 이상 다운로드를 기록했으며 AWS에 배포 가능하다. 개발자는 AWS 클라우드 리소스에 이미 저장된 독점적인 의료 데이터세트를 활용해 의료 이미징용 AI 모델에 빠르게 주석을 달거나 구축할 수 있다.
엔비디아 GPU 기반 아마존 EC2 인스턴스에서 훈련된 이러한 모델은 의료 이미징 세분화, 분류, 등록, 감지 작업을 위한 대화형 주석과 미세 조정에 사용할 수 있다. 아울러 개발자는 모나이에서 제공되는 MRI 이미지 합성 모델을 활용해 훈련 데이터 세트를 보강할 수 있다.
- 구아현 기자 ainews@chosun.com