AlphaGenome: 유전체 이해를 위한 새로운 AI의 등장
- Kyoung-Hwan Choi
- 6월 29일
- 3분 분량
DeepMind는 단백질 구조 예측의 패러다임을 바꾼 AlphaFold에 이어, 이번에는 유전체를 해석하는 새로운 인공지능 모델인 “AlphaGenome”을 선보였다. 인간 유전체에서 단백질을 직접 코딩하지 않는 영역과 다양한 변이들을 정밀하게 분석하고 동시에 수천 가지 분자 기능을 예측할 수 있도록 설계되었다. 단순한 염기서열 분석을 넘어 유전체의 기능적 의미를 이해하려는 시도가 본격화되고 있는 것이다.

Source: Google Deep Mind
그렇다면 왜 유전체 해석이 중요한가?
우리 몸을 구성하는 모든 세포는 동일한 DNA를 지니고 있지만 세포마다 유전 정보를 해석하고 활용하는 방식은 서로 다르다. 같은 유전체를 바탕으로 전혀 다른 기능을 수행하는 이유는 유전자가 어떻게 읽히고 언제 발현되는지에 따라 결정된다. 이처럼 DNA의 작동 방식을 정확히 이해하는 것은 질병의 발생 원인을 규명하고, 신약을 개발하며, 희귀 유전 질환을 진단하는 데 있어 핵심적인 단서를 제공한다.
그러나 인간 유전체의 약 98%는 단백질을 직접 생성하지 않는 비코딩(non-coding) 영역으로 구성되어 있으며, 이 영역이 어떤 기능을 수행하는지, 그 안의 변이가 어떤 생물학적 영향을 주는지는 아직 충분히 밝혀지지 않았다. AlphaGenome은 바로 이 비코딩 영역을 정밀하게 해석하고, 그 안에 숨겨진 기능적 신호를 예측함으로써 유전체 연구의 새로운 지평을 여는 것을 목표로 한다.
AlphaGenome은 무엇인가?
모델 구조는 어떻게 생겼을까?
AlphaGenome은 긴 DNA 시퀀스를 입력으로 받아, 그 안에서 수천 개에 이르는 분자 생물학적 지표를 동시에 예측하는 통합형 인공지능 모델이다. 기존 모델들이 제한된 길이의 염기서열만 처리하거나 단일 기능에 특화되어 있었다면, AlphaGenome은 최대 100만 염기쌍(bp)에 이르는 긴 DNA 서열을 분석하면서도 염기 단위의 해상도를 유지한다는 점에서 기술적 도약을 이룬 모델로 평가된다.
이 모델은 여러 층으로 구성된 딥러닝 구조를 기반으로 작동한다. 먼저 합성곱 신경망(CNN) 층이 짧은 염기 패턴을 감지하여 초기 특징을 추출하고, 이어지는 트랜스포머(transformer) 층이 수십 만 염기쌍 거리의 장거리 상호작용, 예를 들어 인핸서(enhancer)와 프로모터(promoter) 사이의 조절 관계와 같은 것을 반영한다. 마지막으로 출력층에서는 다양한 생물학적 지표를 동시에 예측하는 다중 모달리티 구조가 적용되어 한 번의 분석으로 전사 시작점, RNA 스플라이싱, DNA 접근성 등 다양한 기능적 정보를 도출할 수 있도록 설계되어 있다.
어떤 기능을 예측할 수 있나?
AlphaGenome은 하나의 모델로 다양한 생물학적 지표를 동시에 예측할 수 있도록 설계되어 있다. 유전체 상의 기능적 정보를 총체적으로 분석할 수 있으며, 실제 연구 현장에서는 여러 방면에서 유용하게 활용된다. 예를 들어, 유전자 전사의 시작과 종료 위치를 예측하거나, RNA의 생성량과 스플라이싱 구조를 정밀하게 분석하는 데 활용될 수 있다. DNA 접근성, 전사인자 결합 부위, 히스톤 변형, 크로마틴 상태와 같은 후성유전학적 지표들도 함께 추정할 수 있어 유전체 조절 메커니즘을 다차원적으로 이해하는 데 기여한다.
AlphaGenome은 이와 같은 분자 기능 예측뿐 아니라 특정 DNA 변이가 유전체 기능에 어떤 영향을 미치는지도 신속하게 계산해준다. 모델은 원본 서열과 변이 된 서열을 각각 분석한 뒤, 그 차이를 기반으로 ‘변이 효과 점수(Variant Effect Score)’를 산출한다. 이 계산은 변이 하나 당 1초 이내에 완료될 정도로 빠르며, 대규모 유전체 데이터에서도 실질적인 분석 도구로 활용될 수 있는 수준의 성능을 갖추고 있다.
AlphaGenome은 얼마나 정확한가?
DeepMind는 AlphaGenome의 예측 성능을 입증하기 위해 다양한 벤치마크 과제를 통해 모델을 검증했다. 단일 DNA 시퀀스를 기반으로 분자 생물학적 기능을 예측하는 24개 과제 중 22개에서 AlphaGenome은 기존 최고 성능 모델을 능가하는 결과를 기록했다. 또한 특정 DNA 변이의 기능적 영향을 예측하는 26개 과제 중 24개에서도 기존 모델과 비교해 동등하거나 더 우수한 성과를 보였다.
특히 주목할 점은 이처럼 다양한 기능을 단일 모델 구조 안에서 동시에 수행할 수 있다는 점이다. 이는 단순한 기술적 구현을 넘어, 연구 효율성과 확장성 측면에서 큰 진전을 의미한다. AlphaGenome은 이전에 발표된 Enformer나 AlphaMissense와 같은 모델들의 장점을 통합하면서 유전체 기능 예측의 범위와 정밀도를 한 단계 끌어올린 결과물이다.
실제 적용 사례: 백혈병 유전자 조절 분석
AlphaGenome의 예측 능력은 실제 사례에서도 검증되었다. 대표적인 예는 T세포 급성 림프모구성 백혈병(T-ALL)과 관련된 비코딩 영역 변이에 대한 분석이다. 이 모델은 TAL1 유전자 인근에 위치한 특정 변이가 MYB 전사인자의 결합 모티프를 새롭게 형성하고, 그 결과 TAL1 유전자의 발현이 활성화된다는 사실을 정확히 예측해냈다. 이러한 결과는 기존의 실험적 연구와도 일치하며, AlphaGenome이 비코딩 변이의 기능적 영향을 신뢰성 있게 예측할 수 있다는 점을 보여주는 중요한 사례로 평가된다.
한계는 없을까?
물론 AlphaGenome이 모든 문제를 해결한 것은 아니다. 현시점에서 이 모델은 몇 가지 분명한 한계를 지닌다. 우선, 10만 염기쌍(bp)을 초과하는 장거리 유전체 상호작용을 완전히 포착하는 데에는 여전히 한계가 존재한다. 또한 세포 유형이나 조직별 특이성을 정밀하게 반영하기에는 아직 부족하며, 동일한 유전체라도 세포 환경에 따라 다르게 작동하는 조절 메커니즘을 세밀하게 재현하지는 못한다.
개인 유전체를 기반으로 한 질병 예측이나 임상 진단과 같은 응용 분야에도 현재로서는 직접 활용하기 어렵다. 환경적 요인이나 생체 외부 신호 같은 복합적인 생물학적 맥락을 반영하지 않기 때문이다.
따라서 AlphaGenome은 어디까지나 기초 연구 목적에 초점을 맞춘 도구로 현재는 연구자들을 위한 비상업적 API 형태로만 제공된다. 임상적 활용을 위한 후속 검증과 안전성 평가 과정은 아직 진행 중이다.
유전체 AI 시대의 시작
AlphaGenome은 단일 기능에 특화된 예측 도구를 넘어, 수천 가지 분자 생물학적 기능을 동시에 분석할 수 있는 통합 유전체 해석 플랫폼으로 진화하고 있다. 이 모델은 단순히 DNA 염기서열을 읽는 데 그치지 않고, 그 안에 내재된 조절 기능과 생물학적 의미를 함께 파악함으로써 유전체를 기능적 관점에서 재구성하는 시도를 가능하게 한다.
앞으로 AlphaGenome은 희귀 질환의 분자적 원인 규명, 유전체 기반 치료 타겟 발굴, 합성생물학적 설계 등 다양한 분야에서 폭넓게 활용될 수 있을 것으로 기대된다. DeepMind는 이 모델을 통해 유전체를 단순한 염기서열의 나열이 아닌, 기능적 정보가 집약된 지도로(map) 재정의 하고자 한다. 이는 유전체 해석의 새로운 시대가 본격적으로 열리고 있음을 시사한다.
Comments