세상에 없는 단백질 만드는 인공지능… “신약 개발 패러다임 바꾼다”

이병철 기자 2023. 1. 5. 16:11
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

자연어처리 AI 도입해 단백질 구조 생성
“단백질 기반 신약 개발 속도 빨라질 것”
자연어처리 기반 단백질 구조 생성 AI로 만든 단백질들. 다양한 단백질 구조를 만들어 신약 후보 물질로 사용하면서 의약품 개발의 패러다임이 바뀔 것으로 기대를 모으고 있다./제너레이트 바이오메디신스

소셜미디어(SNS) 페이스북을 운영하는 글로벌 IT 기업 메타가 지난해 11월 논문 사전출판 사이트인 아카이브(arViv)에 저연어처리 인공지능(AI)인 ‘ESM-2′으로 단백질 6억1700만개의 구조를 예측한 결과를 공개했다. 이는 구글 자회사인 딥마인드의 AI 알파폴드가 지난해 발표한 2억1400만개를 능가하는 수치다. 예측 속도도 알파폴드보다 60배 더 빨랐다. 메타의 이번 연구는 자연어처리 AI의 쓰임새를 생물학으로 넓혔다는 평가를 받는다.

글로벌 IT(정보기술) 기업들이 인터넷 컨텐츠를 처리하기 위해 개발한 자연어처리 AI가 신약 개발의 패러다임을 바꾸고 있다. 자연어는 한국어, 영어, 일본어처럼 사람이 사용하는 언어를 말한다. 메타는 문자로 구성된 인터넷 컨텐츠를 분석하듯, 단백질을 구성하는 아미노산 20종을 문자 삼아 단백질 구조를 예측했다. 이제 실험실에서 단백질 구조 자료를 뒤지지 않아도 신약 연구를 할 수 있는 시대가 열렸다. 세상에 없는 단백질도 문자로 문장을 만들듯 AI가 만들어낼 수 있다.

사스코로나바이러스-2의 스파이크 단백질에 결합하는 단백질 구조. 자연어처리 단백질 구조 생성 AI로 만들어졌다. /워싱턴대

◇세상에 없던 단백질 만들어 낸다

유전정보는 DNA를 이루는 염기들이 나열된 순서이다. 생명체는 이 순서대로 아미노산을 배열하고 입체로 접어 모든 생명현상을 좌우하는 단백질을 합성한다.

데이비드 베이커 미국 워싱턴대 교수 연구진은 지난해 11월 논문 사전출판 사이트 ‘바이오 아카이브(bioRxiv)’에 단백질 구조 생성 모델 ‘로제타폴드 디퓨전’을 공개했다. 베이커 교수는 앞서 단백질 구조 예측 AI인 로제타폴드를 만들었다. 그는 이번에 자연어처리 AI인 ‘GPT’와 이미지 생성 AI로 유명한 ‘달리’ 모델을 이용해 아미노산 염기서열만으로 단백질 구조를 만드는 데 성공했다.

로제타폴드 디퓨전 개발에 참여한 백민경 서울대 생명과학부 교수는 “알파폴드와 로제타폴드로도 단백질 구조를 만들어내려는 시도는 이전부터 있었다”며 “다만 ‘진화 정보’를 모두 학습한 상태라 시간이 너무 오래 걸리고, 다양한 구조를 만들기 어려웠다”고 설명했다.

같은 염기서열이라도 생명체 종류에 따라 단백질 구조가 달라진다. 이런 특징은 생명체가 진화를 거치며 바뀐 정보를 담고 있다는 의미에서 ‘진화 정보’라고 부른다.

알파폴드와 로제타폴드처럼 기존의 단백질 구조 예측 AI는 이미 밝혀진 단백질의 아미노산 염기서열과 함께 진화 정보를 배운다. 이 때문에 정확도는 높지만, 다양한 단백질 구조를 만드는 데는 많은 시간이 필요하다.

워싱턴대 연구팀은 이 한계를 극복하기 위해 자연어처리 AI에 쓰이는 방법을 도입했다. 진화 정보에 관계 없이 주어진 아미노산 염기서열만 읽고 새로운 단백질 구조를 동시에 여러 개 만들 수 있다.

백 교수는 “자연어처리를 기반으로 하면 기존에 있는 구조에 영향을 받지 않고, 주어진 염기서열로 가능한 모든 단백질 구조를 빠르게 만들 수 있다”며 “이 같은 특징은 항체치료제 같은 단백질 기반 신약 개발에 큰 도움이 될 것”이라고 말했다.

인체 면역반응을 유도하는 항체 이미지. 코로나 바이러스 같은 외부 병원체에 결합한다./조선DB

◇단백질 기반 신약 개발, 더 빠르고 쉽게

항체치료제는 항체단백질을 이용해 질병의 원인이 되는 인체 단백질의 기능을 막거나, 외부에서 들어온 병원체의 감염을 차단하는 의약품이다. 치료 효과가 좋고, 부작용이 적어 차세대 치료제로 주목받고 있다. 다만 치료제로 쓸 항체단백질을 찾기 어렵거나, 아예 없는 경우도 있다. 개발에 시간과 비용이 많이 들어 항체치료제를 한 번 접종하는 가격이 수천만원, 수억원대에 이르는 상황이다.

만약 자연어처리 단백질 구조 생성 AI로 여러 단백질 구조를 만들어 가상으로 실험을 하고, 치료제 후보 물질을 추리면 개발 실패율을 낮추고, 시간도 절약할 수 있다. 이창훈 대구경북과학기술원(DGIST) 뉴바이올로지학과 교수는 “단백질 구조 생성 AI가 항체치료제 같은 단백질 기반 신약 개발의 패러다임을 바꿀 것”이라고 말했다.

단백질 신약 개발에 AI를 본격적으로 활용하려면 아직 극복해야 할 기술적 난관들이 남아 있다. 단백질은 여러 개가 서로 결합해 하나의 덩어리로 작동하는 경우가 많다. 이런 단백질 복합체 구조를 예측하거나 생성하는 것은 아직 정확도가 낮은 편이다. 이 교수는 “인체의 대부분 단백질은 단독으로 기능하기보다는 여러 단백질이 결합해 복합체 형태로 기능을 한다”며 “아직 AI의 복합체 구조 정확도는 당장 현장에서 쓰기에는 부족하다”고 말했다.

- Copyright ⓒ 조선비즈 & Chosun.com -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?