포커스

마이크 체리 스탠퍼드대 교수 “유전학 AI 혁신, 철저히 검증된 데이터 필요”

기사입력 2024.05.24 17:37
유전학 대가, ‘국제 바이오 헬스 AI 심포지엄 2024’서 기조연설
유전학에서 AI 활용은 ‘매력적’, 검증된 DB 결합 필요
  • 마이크 체리(Mike Cherry) 미국 스탠퍼드대 의과대학 교수. /김동원 기자
    ▲ 마이크 체리(Mike Cherry) 미국 스탠퍼드대 의과대학 교수. /김동원 기자

    바이오 의료 빅데이터 분야 세계적인 전문가인 마이크 체리(Mike Cherry) 미국 스탠퍼드대 의과대학 교수가 유전학 분야 인공지능(AI) 발전을 위해선 철저하게 검증된 데이터가 필요하다고 강조했다.

    체리 교수는 24일 서울대 목암홀에서 열린 ‘국제 바이오 헬스 AI 심포지엄 2024’에 기조연설자로 참여해 유전학 분야 데이터 취합과 검증의 중요성을 강조했다. 

    마이크 체리 교수는 유전체학과 생물정보학 분야에서 세계적으로 인정받는 학자다. 유전체 기능 분석을 위한 미국 국립보건원(NIH) 주도 컨소시엄 프로젝트인 ENCODE뿐만 아니라, 유전자 온톨리지(Gene Ontology) 컨소시엄, 모델 생물 유전체 데이터베이스인 SGD(Saccharomyces Genome Database) 등 다양한 대형 프로젝트를 이끌어 오고 있다. 최근에는 인간 세포 지도(Human Cell Atlas) 프로젝트에도 참여하는 등 생명의료 대규모 데이터 통합 및 분석 소프트웨어 개발 분야를 선도하고 있다. 그동안의 그의 연구와 공공 데이터베이스 구축 노력은 전 세계 연구자들이 유전학 데이터를 쉽게 접근하고 활용할 수 있도록 도와 과학적 발견과 혁신을 촉진하고 있다고 평가된다.

    그는 이날 강연에서 “유전학 데이터와 AI를 이용해 새로운 도구를 만들고 발견하는 경우가 많아졌다”며 “AI를 사용해 더 나은 결과를 만들어내는 것은 흥미로운 일”이라고 말했다. 이어 “유전학 데이터를 AI로 학습하려면 철저하게 검증된 데이터가 필요하다”고 강조했다.

    그 사례로 구글 딥마인드의 ‘알파폴드’를 꼽았다. 알파폴드는 학습한 데이터를 통해 단백질 구조를 예측하는 AI 모델이다. 질병을 유발하는 단백질을 제어해 신약 물질을 만드는 데 도움을 줄 수 있다. 딥마인드는 지난 7일 최신버전인 ‘알파폴드3’를 공개한 바 있다. 기존 모델이 제공하던 인체 내 단백질 구조 예측을 넘어 모든 생물학적 분자 형태와 상호작용까지도 예측할 수 있게 만들었다. 세포는 단백질, 유전자(DNA) 등 수십억 개의 분자가 복잡하게 상호작용을 하는데, 알파폴드3는 생명체의 근간이 되는 거의 모든 생체 분자 구조를 예측할 수 있다. 딥마인드는 단백질과 다른 분자 간 상호작용에 관한 예측은 기존보다 50% 이상, 특정 상호작용에서는 정확도가 2배까지 높아졌다고 밝혔다.

    체리 교수는 “단백질 데이터베이스(DB)는 대략 50년에 걸쳐 만들어진 분자 구조 DB”라며 “DNA와 단백질 구조를 연구해 본 사람이라면, 단백질 하나의 구조를 얻기 위해 상당한 노동집약적인 작업을 수행해야 한다는 것을 알 것”이라고 말했다. 이어 “단백질을 결정체로 만들고 이를 연구해 구조를 얻는 연구는 매우 힘든 과정”이라며 “딥마인드는 알파폴드를 활용해 큰 단백질 구조를 2분 안에 해결했다”고 설명했다. 

    그는 이 과정은 생물학 관점에서 획기적인 일이라고 평가했다. 딥마인드가 만든 알파폴드는 단백질 구조를 미리 알지 못했지만, 언어 분석 기술을 통해 가능성을 찾았다고 밝혔다. 또 이러한 획기적인 일은 방대한 양의 검증된 데이터가 있었기 때문에 가능했다고 설명했다.

    따라서 그는 유전학 분야의 AI를 발전시키기 위해선 철저하게 검증된 대용량 데이터를 만드는 것이 필요하다고 밝혔다. 또 유전학 분야 데이터뿐 아니라 여러 DB를 결합해야 한다고 설명했다.

  • 마이크 체리 스탠퍼드대 교수는 “유전학 분야 AI 발전을 위해선 검증된 대용량 데이터 구축과 여러 DB의 결합이 필요하다”고 밝혔다. /김동원 기자
    ▲ 마이크 체리 스탠퍼드대 교수는 “유전학 분야 AI 발전을 위해선 검증된 대용량 데이터 구축과 여러 DB의 결합이 필요하다”고 밝혔다. /김동원 기자

    DB 결합의 필요성은 그가 1993년 스탠퍼드대에서 수행한 연구 성과를 사례로 소개했다. 체리 교수 연구실은 당시 출아형 효모(Saccharomyces cerevisiae)에 관한 DB를 구축했다. 사카로미세스(Saccharomyces)는 여러 종류의 발효 음료를 만드는 데 활용되는 효모다. 그런데 이 효모에 관한 DB는 현재 중요한 연구 도구가 됐다. 효모와 인간의 유전자 사이에는 1000개 이상의 공통 유전자가 있다는 것이 밝혀지면서 효모에서 특정 유전자를 제거하고 인간 유전자를 삽입하는 연구 등이 시행됐다. 최근에는 합성 생물학에서 작은 분자를 만들거나 향수와 같은 제품을 만드는 연구에도 사용되고 있다. 체리 교수는 “하나의 DB가 여러 연구에 활용될 수 있다”며 “여러 분야의 DB를 모으면 통찰력 있는 연구가 가능해질 것”이라고 말했다.

    체리 교수는 유전학 연구에서의 생성형 AI 활용성도 강조했다. 현재 연구실에선 대형언어모델(LLM)을 활용해 데이터 검색을 돕는 ‘데이터 큐레이션’ 작업에 사용하고 있다고 밝혔다. 그는 “챗GPT와 같은 모델에 단순히 질문을 던지는 방식이 아닌, 논문을 모델에 입력하고 정확한 정보를 추출하는 도구로 사용하고 있다”며 “이러한 도구를 검증된 DB와 통합하면 정확한 정보를 제공해 실제 연구에 도움을 줄 것”이라고 말했다.

  • 서울대 목암홀에서 발표하고 있는 마이크 체리 스탠퍼드대 교수. /김동원 기자
    ▲ 서울대 목암홀에서 발표하고 있는 마이크 체리 스탠퍼드대 교수. /김동원 기자
    이날 체리 교수가 연설한 국제 바이오 헬스 AI 심포지엄 2024는 개인화된 정밀 의료 및 강화 개발에서 데이터 사이언스, 인공지능 관련 최신 기술 동향을 공유하기 위해 마련됐다. 이날 행사는 ‘유전체학의 데이터 과학 및 인공지능(Data Science and Artificial Intelligence in Genomics)’을 주제로 열렸다. 행사는 한국정보과학회 인공지능소사이어티 바이오헬스연구회, 목암생명과학연구소, 한국생명정보학회, 서울대 생명정보연구소, 부산대 인공지능융합연구센터, 조선미디어그룹 인공지능 전문매체 THE AI가 주관했다.

최신뉴스