[노벨상 2024] 단백질과 분자 상호작용도 예측…화학상 알파폴드2에서 진일보한 알파폴드3

'GOAT(Greatest Of All Time)'라는 표현이 있다. 역대 최고라는 뜻의 신조어다. 오늘날 생명과학에서 GOAT를 꼽자면 알파폴드(AlphaFold)를 빼놓을 수 없을 것이다. 알파폴드는 구글 딥마인드가 개발한 인공지능(AI) 프로그램이다. 아미노산 서열로 단백질의 구조를 예측하는 이 프로그램은 2018년 첫 공개된 이후로 생명과학의 판도를 뒤집어 놨다.

지난 5월 8일 알파폴드의 최신 버전 '알파폴드3'가 공개됐다. "기존의 어떤 모델보다도 더 정확하게 단백질과 생체 내 분자의 상호작용을 예측할 수 있다"는 연구자들의 설명에 앞으로 알파폴드3가 신약개발 혁신을 이끌 것이라는 기대감이 고조된다. 2024년 노벨 화학상을 안긴 알파폴드2에서 진일보한 알파폴드3에 대해 당신이 꼭 알아야 할 정보를 4가지 포인트로 톺아봤다.

"우리의 AI 시스템은 과학계의 오랜 도전 과제를 풀어 질병의 정복이나 일회용 플라스틱의 분해 등 인류에게 중요한 문제를 해결하는 데 도움이 되고 있습니다. 언젠가는 생명 그 자체의 미스터리를 밝히는 데에 도움이 될지도 모르죠."

구글 딥마인드 홈페이지에서 찾아볼 수 있는 알파폴드(AlphaFold) 소개 문구다. 거창해 보이지만 과장은 없다. 알파폴드는 그렇게 대단한 프로그램이 맞다. 알파폴드는 아미노산 서열을 토대로 단백질의 구조를 예측한다. 단백질은 생명활동을 조절하는 핵심 분자다. 항체, 세포막, 효소 등을 구성한다.

단백질의 구조와 기능은 서로 밀접한 연관성을 갖고 있다. 주어진 아미노산 서열로 만들 수 있는 단백질의 구조를 알면 이 단백질이 생체 내에서 어떤 일을 할 수 있는지 가늠할 수 있다. 거꾸로 구조를 바꿔가며 원하는 기능을 하는 단백질을 설계하는 일 또한 가능하다. 그래서 과학자들은 수십 년간 단백질의 구조를 정확하게 예측할 방법을 탐색하고 있었다.

그러던 2018년 알파폴드가 공개됐다. 그해 12월 열린 제13회 단백질 구조 예측 대회(CASP13)에서 알파폴드는 97개 팀 중에서 우승을 차지하며 화려하게 데뷔했다. 이어 2020년 개최된 CASP14에서는 알파폴드2가 평균 92.4점으로 1위를 차지했다. CASP에서 90점 이상의 점수를 받은 프로그램은 알파폴드2가 역대 최초다.

올해 5월 8일 구글 딥마인드와 아이소모픽 랩스 공동연구팀이 국제학술지 '네이처'에 알파폴드3을 공개했다. 알파폴드2가 공개된 지 4년 만의 일이다.

연구팀은 논문을 통해 "알파폴드3은 단 하나의 통일된 딥러닝 프로그램으로 단백질과 리간드 간의 상호작용, 단백질과 핵산, 항체 등의 상호작용을 기존에 출시된 프로그램보다 더 정확히 예측할 수 있다"고 소개했다. 단백질과 단백질 사이의 상호작용만 예측하던 기존 알파폴드보다 한 발짝 나아간 셈이다. (doi: 10.1038/s41586-024-07487-w)

'역대 최고'의 단백질 구조 예측 프로그램이 보인 새 행보에 과학계가 흔들렸다. 리간드, 핵산, 항체 등 생체분자와 단백질의 상호작용을 정확히 예측하면 단백질을 활용한 신약 개발에 큰 도움이 된다.

구글 딥마인드는 "알파폴드3의 도약은 앞으로 재생가능소재 개발과 작물의 질병 저항성을 높이는 연구에 도움이 되고 나아가 약물 설계 속도를 올리거나 유전학 연구 등에 큰 역할을 해 과학계의 전환을 이끌 것"이라고 했다.

단백질 구조 예측 대회 우승팀 점수, 알파폴드3가 단백질과 DNA의 상호작용을 계산해 3차원 이미지로 나타낸 구조. Nature, Deepmind 제공

● Strength. 디퓨전 모델로 더욱 섬세한 예측

6월 5일 알파폴드2 개발에 참여했던 마틴 스타이네거 서울대 생명과학부 교수와 화상 인터뷰를 진행했다. 스타이네거 교수는 "알파폴드2와 3의 아키텍처(구조) 자체는 비슷하다"면서 "다만 디퓨전 모델을 적용한 부분이 가장 두드러지는 차이점"이라고 짚었다.

알파폴드2에서는 단백질 구조를 예측할 때 기본 뼈대가 되는 부분을 몇 가지 덩어리로 뭉뚱그려 계산했다. 각각의 덩어리가 3차원 공간에서 어떻게 움직이는지만 보면 되니 계산이 쉽다. 그러나 단백질의 세밀한 구조를 예측하기는 어렵다는 단점이 있었다. 한편 알파폴드3에서는 디퓨전 모델을 이용해 단백질을 구성하는 각 원자의 좌표를 바로 구해 더 섬세한 구조를 알 수 있다.

그동안 알파폴드의 핵심 역할을 해온 건 다중 서열 정렬(MSA) 알고리즘이었다. MSA 알고리즘이 불러온 혁신을 이해하기 위해선 알파폴드의 세부 원리를 알아야 한다. 단백질은 20종의 아미노산이 구슬 꿰듯 줄지어 연결돼 만들어진 한 가닥의 폴리펩타이드로부터 시작한다. 폴리펩타이드는 아미노산 간의 상호작용에 따라 2차, 3차구조를 형성하며 접힌다.

구글 딥마인드는 아미노산 간의 상호작용을 일일이 계산하지 않고도 단백질의 입체 구조를 알아낼 꾀를 썼다. 그게 MSA 알고리즘이다. 지난 수십 년간 생물학자들은 사람을 비롯해 쥐, 바퀴벌레, 아메바 등 생명체 속 단백질 구조를 밝히고 데이터베이스로 만들어왔다. 그 덕에 우리는 이미 지구상의 단백질 약 2억 개의 구조와 아미노산 서열을 알고 있다.

같은 종류의 단백질이라도 생물종에 따라 아미노산 서열이 조금씩 다르다. 진화적으로 가까운 생물일수록 서열이 비슷하다. MSA 알고리즘은 주어진 아미노산 서열과 유사한 것들을 유사성 기준으로 나열한다.

그러면 아미노산 서열이 종에 따라 달라질 때 반드시 함께 변하는 공진화(coevolution) 쌍을 발견할 수 있다. 공진화 쌍은 해당 아미노산 서열로 단백질을 만들 때 3차원 구조상에서 서로 붙어있는 지점이라고 해석된다.

공진화 쌍을 기준으로 '접으면' 처음 보는 단백질의 구조도 쉽게 예측할 수 있다. 이것이 MSA 알고리즘의 핵심 아이디어다. AI는 무작위처럼 보이는 데이터 뭉치에서 규칙성을 찾아내는 능력이 사람보다 더 뛰어나다. 알파폴드는 AI를 이용해 수만 개의 아미노산 서열에서 공진화 쌍을 빠르게 찾는다. 그리고 공진화 쌍이 3차원 공간에서 서로 붙어있다는 규칙을 적용해 전체 단백질의 구조를 알아낸다.

MSA 알고리즘의 한계는 곧 알파폴드의 한계가 됐다. 기존의 단백질 구조 데이터베이스 상에 비슷한 단백질 서열이 몇 개 없으면 공진화 쌍을 많이 찾을 수 없다. 그래서 다양한 생물에 널리 분포한 단백질의 구조는 정확하게 예측할 수 있는 반면 인간이나 포유류 등에서만 찾아볼 수 있는 단백질의 구조는 상대적으로 예측 정확도가 떨어졌다.

알파폴드3은 새롭게 적용된 디퓨전 모델을 이용해 기존 알파폴드의 한계를 극복한다. 디퓨전 모델은 원자와 원자 사이 공간적인 배열 패턴을 예상해 화학물질의 구조를 예측한다. 단백질 구조 데이터베이스 상에 유사한 단백질이 몇 개 없는 경우라도 상관없다.

심지어 단백질이 아닌 분자여도 상관없다. 그래서 알파폴드의 경쟁자인 로제타폴드(RoseTTAFold)도 2022년부터 디퓨전 모델을 적용해왔다. 기존 MSA 알고리즘의 장점과 디퓨전 모델의 장점을 결합해 단백질과 단백질뿐만 아니라 DNA, 리간드, 항체 등 분자와 단백질 사이의 상호작용까지도 예측 가능하다는 게 알파폴드3의 강점이다.

주황색 화살표는 정보 입력 과정을 나타낸다. 단백질의 아미노산 서열이나 리간드, DNA 정보 등을 입력하면 유사한 단백질 구조와, 단백질 유전정보 데이터, 그리고 단백질 내 원자의 연결관계 데이터(컨포머)를 탐색한다. 탐색한 정보를 '정보입력'단에서 통합한다.

파란색 화살표는 실제로 단백질 구조를 구현하는 과정이다. 구조 모듈, MSA 모듈, 페어포머를 거치며 전체적인 단백질의 구조를 그린다. 초록색 화살표는 최종적으로 단백질 구조를 만드는 과정이다. 디퓨전 모델을 이용한다.

● Weakness. 여전히 실험을 대체할 순 없어

논문을 통해 공개된 알파폴드3의 성적표를 살펴보자. 원래 잘하던 건 여전히 잘하고 있다. 단백질과 단백질 사이의 상호작용을 예측하는 능력은 76.6%로 나타났다. 이전 버전인 알파폴드2.3보다 1.1%p 높아진 수치다. 리간드, RNA, DNA, 항체와 단백질의 상호작용을 예측하는 능력은 각각 76.4%, 39.4%, 64.8%, 62.9%로 이전 버전이나 로제타폴드 등 타사의 단백질 구조 예측 프로그램과 비교해서도 뛰어났다.

하지만 6월 10일 서울대에서 만난 이주용 서울대 약대 교수는 논문 데이터를 살펴보며 "아직 실제 실험을 대체할 만큼 잘 예측하진 못한다"고 설명했다. 실제로 연구팀은 논문에서 알파폴드3가 가진 네 가지 한계점을 지적하기도 했다. 우선 분자가 거울상 이성질체인 경우 해당 분자의 이성질성을 예측할 때 4.4%의 오차범위가 발생함을 발견했다.

알파폴드3의 핵심 개선사항인 디퓨전 모델은 원래 이미지 생성 AI에서 쉽게 찾아볼 수 있는 기법이다. 디퓨전 모델의 부작용은 이미지 왜곡이다. 디퓨전 모델이 그림을 그릴 때 사람의 손가락을 여섯 개 만든다거나 얼굴 주름이 이상하게 연결되는 등 미세한 왜곡이 발생하는데 이것이 단백질의 구조를 예측할 때도 동일한 양상으로 생겨난다.

스타이네거 교수는 "디퓨전 모델을 사용하지 않았던 알파폴드2에서는 없었던 부작용이라 앞으로 많은 개선이 필요할 것"이라고 지적했다.

데미스 허사비스 구글 딥마인드 최고경영자(CEO)가 단백질 모형을 바라보고 있다. 그는 알파폴드2 개발에 기여한 공로로 노벨 화학상을 받았다. Tribeca 제공

연구팀은 논문에서 "이전 버전과 동일하게 알파폴드3도 여전히 단백질 구조 데이터베이스 상에 있는 구조를 모방할 뿐 실제 생체 내에서 단백질이 어떻게 생겼는지를 정확히 예측하지는 못한다"고 짚었다. 이어 "알파폴드3의 구조 예측 정확도가 크게 향상되었음에도 불구하고 여전히 항원-항체 복합체의 구조를 정확히 예측하기도 어렵다"고 했다.

이 교수는 "항원과 항체가 결합하는 부분은 유연하게 움직이는 예측이 어려운 부분"이라고 설명했다. 스타이네거 교수는 "알파폴드3의 개발을 지휘한 존 점퍼 알파폴드 수석연구원은 단백질이 생체 내에서 어떻게 움직이는지 예측하는 기능을 구현하고 싶어했다"면서 "그러나 알파폴드3에 해당 기능이 없는 걸 보면 아직 많은 개발이 필요한 것으로 보인다"고 말했다.

● Opportunity. AI 제약이라는 거대한 시장

약점을 극복한 알파폴드3에게 펼쳐질 미래는 밝다. 시장이 움직이고 있기 때문이다. 한국제약바이오협회가 2023년 7월 발표한 'AI 뉴노멀 시대의 도래와 신약 개발' 보고서에 따르면 2022년 6억 980만 달러(약 8373억 원) 규모이던 전 세계 AI 신약 개발 시장은 매년 연평균 45.7%씩 성장해 2027년엔 40억 350만 달러(약 5조 4969억 원) 규모에 이를 것으로 전망된다.

AI는 신약 개발 전반에 활용될 수 있다. 특히나 알파폴드의 활약이 주목되는 건 신약 후보 물질 발굴부터 임상 1상까지 이어지는 과정이다. 석차옥 서울대 화학부 교수는 신약 개발 소프트웨어 회사인 '갤럭스'의 대표를 겸하고 있다.

그는 6월 10일 인터뷰를 통해 "신약 개발은 약효를 내기 위해 체내에서 타깃으로 할 단백질을 찾은 다음 이 단백질에 작용하는 분자를 발굴하고 그 분자의 실제 효능과 독성을 테스트한 뒤 임상 시험을 진행하는 단계로 구성된다"고 말했다.

알파폴드와 같은 단백질 구조 예측 AI는 타깃 단백질의 형태를 찾고 여기에 작용할 분자와의 상호작용을 예측하는 등 신약 후보 물질을 발굴하는 시간을 줄여준다. 석 교수는 "현재 미국식품의약국(FDA)에서는 신약을 발굴할 때 가장 많은 시간을 차지하는 임상 단계를 단축하려는 노력도 있다"면서 "미래에는 AI가 이 부분에서 시간을 당겨주는 역할을 해줄 것"이라고 내다봤다.

아미노산 서열을 토대로 단백질의 구조를 알아내는 알파폴드의 능력은 단백질 신약을 설계하는 데 큰 도움이 된다. 석 교수는 "단백질 구조 예측 AI가 발전하면 AI가 단백질 신약 후보 10개를 설계하고 이 10개에 대한 독성 시험과 임상 시험만 진행하면 되는 미래가 올 수도 있다"고 했다.

실제로 지난 1월엔 글로벌 제약사인 일라이릴리와 노바티스가 알파폴드의 개발을 맡은 구글 아이소모픽 랩스와 30억 달러(약 4조 원) 규모의 공동개발 파트너십을 체결한 바 있다. 데미스 허사비스 구글 딥마인드 공동설립자(아이소모픽 최고경영자)는 "파트너십을 통해 알파폴드의 독점 기술 플랫폼을 글로벌 제약사의 신약 개발에 적용하고 의약품 설계 접근 방식을 획기적으로 발전시킬 것"이라고 말했다.

알파폴드3는 AI 신약 개발 시장을 본격적으로 열어주는 데 한몫 할 것으로 기대를 모은다. 현재 국내 AI 신약개발 스타트업은 2023년 상반기 기준 51개다. 사진은 그 중 한곳인 온코크로스의 연구실 전경. 온코크로스 제공

● Threat. '오픈 사이언스'의 문 닫혀

산업계에서는 각광받는 알파폴드3이지만 학계의 반응은 의외로 차갑다. 알파폴드2가 공개될 때는 전체 소스코드를 함께 공개하면서 생명과학의 큰 공진화를 불러왔다. 알파폴드2의 논문을 인용한 수가 1만 3000건, 열람 수가 1억 6000만 건일 정도다. 알파폴드2를 이용해 항우울제 후보물질을 수십만 개 발견하는 등 실제 논문으로 이어지는 성과도 나온다.

그러나 이번 알파폴드3에는 소스코드가 함께 공개되지 않았다. 알파폴드 서버를 통해 알파폴드3을 이용할 수는 있지만 이마저도 비상업적 용도로 제한되고 있는 실정이다. 스타이네거 교수는 "현재 과학계의 반발이 강하다"면서 "이건 네이처와 딥마인드가 명백하게 잘못한 것"이라고 비판했다.

"네이처라는 저널의 이름값이 필요했다면 그 저널에 투고하는 다른 연구자들과 같이 소스코드를 공개해 정당한 리뷰 절차를 거쳤어야 했습니다. 알파폴드가 사기업이 개발한 프로그램이라 기업 자산인 소스코드를 공개하기 어려웠다면 논문 사전공개 정도로만 발표했어도 대중의 반발이 이렇게 크지는 않았을 겁니다.

생명과학 커뮤니티는 원래 오픈소스를 기반으로 성장했어요. 수십 년간 과학자들이 기술과 정보를 공유해가며 쌓아온 단백질 구조 데이터베이스를 기반으로 성장한 알파폴드가 그 예외가 돼선 안된다는 이야기입니다."

네이처는 5월 22일 뒤늦게 '알파폴드3-왜 네이처는 코드 없이 논문을 냈는가'란 내용의 성명문을 통해 "연구자들의 비판을 수용한다"면서 "앞으로 6개월 안에 알파폴드3의 소스코드를 공개하겠다"고 발표했다.

알파폴드나 로제타폴드 등 선도적인 단백질 구조 예측 AI 기술은 실제 시장에 투입될 정도로 성장했다. 제약회사의 투자가 이어지는 상황에서 연구자들이 계속해서 자신들의 지적 재산을 무료로 공개하기를 기대하긴 어려운 시대가 됐다.

그러나 AI를 이용한 단백질 구조예측 기술은 이미 막을 수 없는 거센 물결이다. 알파폴드가 자신의 기술을 공개하지 않는다고 해도 이미 세계 각국의 단백질 구조예측 기술이 궤도에 오른 상태다. 석 교수는 "지금 가장 중요한 건 기술 자립"이라고 말한다.

언젠가 딥마인드가 알파폴드의 그 어떤 데이터도 공유하지 않겠다고 선언한대도 흔들리지 않을 기반이 필요하다. 알파폴드가 불러온 파랑에 휩쓸리지 않고 함께 시장을 주도할 방법을 고민해야 할 때다.

[김소연 기자 lecia@donga.com]

이 기사에 대해 어떻게 생각하시나요?

동아사이언스

IT/과학

[노벨상 2024] 단백질과 분자 상호작용도 예측…화학상 알파폴드2에서 진일보한 알파폴드3