단백질 구조 예측 AI 구글·페이스북 경쟁...'알파폴드' 대항마 'ESM폴드' 등장

이영애 기자 2022. 11. 2. 15:30
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

페이스북의 모회사인 메타가 직접 개발한 인공지능(AI)으로 단백질 구조 약 6억 개를 예측하는데 성공했다.

메타는 텍스트를 예측하는 '대형 언어 모델(LLM)'이 적용된 AI 'ESM폴드(ESMFold)'로 박테리아와 바이러스 등 미생물의 단백질 약 6억1700개 이상을 예측한 결과를 논문 사전공개 사이트 '바이오 아카이브' 11월 1일자에 공개했다.

메타는 ESM폴드로 2주만에 6억1700개의 단백질 구조를 예측하는 데도 성공했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

'메타' 개발 ESM폴드, 6억개 단백질 구조 예측 결과 공개
단백질의 3차원 구조를 재현한 모식도. 메타가 개발한 단백질 구조 예측 AI가 6억 개 이상의 단백질 구조를 예측하는 데 성공했다. 게티이미지뱅크

페이스북의 모회사인 메타가 직접 개발한 인공지능(AI)으로 단백질 구조 약 6억 개를 예측하는데 성공했다.

메타는 텍스트를 예측하는 '대형 언어 모델(LLM)'이 적용된 AI 'ESM폴드(ESMFold)'로 박테리아와 바이러스 등 미생물의 단백질 약 6억1700개 이상을 예측한 결과를 논문 사전공개 사이트 '바이오 아카이브' 11월 1일자에 공개했다. 대형 언어 모델이란 일부 글자만 적어도 전체 단어를 예측하는 자동완성 기능에 사용되는 AI다.

단백질은 20여 개의 아미노산이라는 단위체로 이뤄져 있고 각각의 아미노산은 알파벳 약자를 가지고 있다. 글리신은 'G', 세린은 'S'로 표기하는 식이다. 연구팀은 단백질의 구조를 20개의 아미노산 알파벳으로 이뤄진 서열정보로 표기한 뒤 이를 이용해 텍스트 예측 AI를 학습시켰다. 그 결과 일부 아미노산의 서열이 가려져 있을 때도 단백질의 구조를 '자동완성' 하는 AI 'ESM폴드'가 탄생했다.

메타는 ESM폴드로 2주만에 6억1700개의 단백질 구조를 예측하는 데도 성공했다. 이중 3분의 1 이상은 전체 단백질의 모양이 정확하고 경우에 따라서는 원자 수준까지도 식별할 수 있도록 정교했다. 나머지 3분의 2는 낮은 신뢰도로 예측할 수 있었다. 세르게이 옵치니코프 미국 하버드대 교수는 ESM폴드가 예측하지 못한 부분에 대해 "우리가 전혀 알지 못하는 단백질 부위가 있는 것으로 보인다"고 말했다.

ESM폴드의 단백질 구조 예측 정확도가 구글 딥마인드의 단백질 구조 예측 AI '알파폴드'에 미치는지는 아직 미지수다. 다만 마치 검색을 하듯 빠른 속도로 손쉽게 단백질 구조 예측이 가능하다는 것은 충분한 강점으로 작용한다는 평가가 나온다. 버르크하드 로스트 독일 뮌헨공대 컴퓨터공학 및 컴퓨터생물학과 교수는 "단백질 구조 예측이 더 단순하고 저렴해질 수 있다는 가능성을 열어줬다"고 말했다.

딥마인드는 당장 ESM폴드가 만든 단백질 구조를 데이터베이스로 활용할 계획은 없지만 가능성은 열어두겠다는 입장이다. 알파폴드 개발에 참여한 마틴 스타이네거 서울대 생명과학부 교수는 "(ESM폴드가) 어두웠던 영역을 해결할 수 있는 기회가 될 것"이라고 평가했다.

[이영애 기자 yalee@donga.com]

Copyright © 동아사이언스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?