우리 몸을 구성하고 생명 활동을 조율하는 가장 근본적인 일꾼은 바로 ‘단백질’입니다. 단백질은 길게 이어진 아미노산 사슬이 정교하게 접혀서 만들어진 입체 조각품과 같습니다. 이 3차원 구조가 만들어져야만 단백질은 비로소 제 기능을 수행할 수 있습니다. 마치 열쇠가 정확한 모양을 가져야 자물쇠를 열 수 있는 것과 같은 이치입니다. 이 때문에 아미노산 서열이라는 1차원 정보만으로 단백질의 3차원 구조를 예측하는 ‘단백질 접힘 문제’는 지난 50년간 생명과학계의 가장 큰 숙원이었습니다. 그리고 마침내, 인공지능이 이 오랜 수수께끼에 대한 해답을 제시하며 새로운 시대의 문을 열었습니다.

생명의 설계도를 읽어내는 인공지능의 눈

인공지능은 어떻게 이 복잡한 문제를 해결했을까요? 그 비결은 단백질의 진화 역사 속에서 패턴을 찾아내는 혁신적인 접근법에 있습니다. 특정 단백질의 구조를 예측하기 위해, 인공지능은 먼저 데이터베이스에서 이와 유사한 수백만 개의 ‘사촌’ 단백질 서열들을 찾아냅니다. 이는 마치 한 가족의 가계도를 분석해 공통된 유전적 특징을 찾아내는 것과 같습니다.

인공지능은 이 방대한 다중 서열 정렬(MSA) 데이터 속에서 함께 진화해 온 아미노산 쌍들을 발견합니다. 수백만 년의 진화 과정에서 함께 변해온 아미노산들은 3차원 구조상에서도 서로 가까이 있을 확률이 높다는 강력한 단서가 됩니다. 인공지능은 이 진화적 정보와 아미노산 사이의 물리적 상호작용 가능성을 함께 고려하여, 어떤 아미노산들이 공간적으로 가까이 붙어야 하는지에 대한 정교한 가설 지도를 만들어냅니다.

스스로 학습하고 완성도를 높이는 과정

진화적 단서를 통해 얻은 2차원 지도를 바탕으로, 인공지능은 실제 3차원 구조를 조립하기 시작합니다. 여기서 놀라운 점은 인공지능이 스스로 자신의 예측을 평가하고 수정하는 반복 학습을 거친다는 것입니다. 처음에는 대략적인 뼈대를 만들고, 그 구조가 물리적으로 타당한지, 앞서 분석한 정보와 일치하는지를 스스로 검토합니다. 그리고 이 검토 결과를 다시 입력값으로 활용하여 구조를 더욱 정교하게 다듬습니다. 이 ‘재활용’과 같은 정제 과정을 수차례 반복하면서, 예측 모델은 사소한 오류까지 바로잡아 거의 완벽에 가까운 구조를 완성해 나갑니다.

특히 원자 하나하나의 위치까지 정확하게 예측하기 위해, 국소적인 원자들의 배치 관계를 집중적으로 평가하는 독자적인 학습 방식을 사용했습니다. 덕분에 전체적인 모양뿐만 아니라 원자 단위의 세밀한 부분까지 실험 결과와 거의 일치하는 놀라운 정확도를 달성할 수 있었습니다.

실험을 넘어선 예측, 생물학의 지평을 넓히다

이 인공지능의 예측 정확도는 그야말로 경이로운 수준입니다. 단백질 구조 예측의 월드컵이라 불리는 국제 대회(CASP)에서, 수개월에서 수년이 걸리는 X선 결정학이나 저온전자현미경 같은 고가의 실험 장비로 얻어낸 실제 구조와 거의 구별할 수 없는 결과를 내놓으며 세계를 놀라게 했습니다. 오차 범위가 탄소 원자 하나의 폭보다도 작을 정도로 정밀한 예측을 단 며칠 만에 해낸 것입니다. 또한, 예측된 구조의 각 부위가 얼마나 신뢰할 수 있는지 자체적인 ‘신뢰도 점수’를 함께 제공하여, 연구자들이 결과를 비판적으로 활용하고 연구의 방향을 설정하는 데 큰 도움을 주고 있습니다.

디지털 생물학 시대, 인류의 미래를 바꾸다

단백질 구조 예측의 성공은 단순히 과학적 난제를 해결한 것을 넘어, 생명과학 연구의 패러다임을 완전히 바꾸고 있습니다. 이전에는 상상할 수 없었던 속도로 수억 개의 단백질 구조를 예측하고 데이터베이스로 구축하여 전 세계 과학자들에게 무료로 공개했습니다. 이는 신약 개발, 암이나 알츠하이머 같은 난치병의 원인 규명, 플라스틱을 분해하는 효소 설계 등 인류가 직면한 다양한 문제를 해결하는 데 결정적인 돌파구를 제공하고 있습니다.

이제 과학자들은 실험실에서 오랜 시간을 보내기 전에 컴퓨터 앞에서 먼저 생명의 비밀을 탐구할 수 있게 되었습니다. 인공지능이 연 ‘디지털 생물학’ 시대는 이제 막 시작되었으며, 그 잠재력은 우리의 상상을 훨씬 뛰어넘을 것입니다.

논문 원문: https://doi.org/10.1038/s41586-021-03819-2