메타 AI, 미지의 바이러스 7만개 찾아냈다

유지한 기자 2024. 10. 15. 00:45
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

인류 각종 질병 극복에 기대감
메타의 마노하 팔루리 생성형 인공지능(AI) 부사장이 지난 10일 한국을 찾아 서울 강남구 메타코리아 사무실에서 메타의 AI 정책에 대해 설명하고 있다. 메타는 최근 AI를 활용해 지금까지 알려지지 않은 바이러스 약 7만개를 발견했다. /메타

구글 딥마인드의 단백질 구조 예측 인공지능(AI) ‘알파폴드’ 연구자가 노벨상을 받은 데 이어, 알파폴드의 대항마인 메타의 ‘ESM폴드’가 지금까지 알려지지 않은 바이러스 약 7만개를 발견했다. ESM폴드는 메타가 2022년 개발한 단백질 구조 예측 AI 모델이다. 실험실에서 바이러스를 직접 배양하지 않고도 다양한 환경에 존재하는 바이러스를 AI로 예측해낸 것이다. 인류가 코로나 바이러스 같은 각종 질병을 극복하는 데 큰 도움이 될 것이라는 기대가 나온다.

캐나다 토론토대와 중국 중산대 공동 연구진은 국제 학술지 ‘셀’ 최신호를 통해 “AI를 통해 과학계에 알려지지 않았던 7만500개의 RNA 바이러스를 발견했다”라고 밝혔다. 네이처는 “AI가 RNA 바이러스 우주의 ‘암흑 물질’을 탐색할 수 있는 잠재력을 보여준다”고 평가했다. 우주 물질의 85% 넘게 차지하지만 아직 정체를 모르는 암흑 물질처럼, 미지의 생물 세계를 정복할 수 있다는 뜻이다.

◇”알파폴드보다 60배 빨라”

연구진이 주목한 분야는 RNA 바이러스다. 바이러스는 동물과 식물, 사람에게까지 질병을 감염시킬 수 있지만, 그 가운데 극히 일부만 정보를 알고 있다. 특히 RNA 바이러스는 돌연변이 속도가 매우 빨라 연구자들이 정확한 구조를 찾아내기가 쉽지 않다. 매년 유행하는 독감이나 세계적으로 퍼졌던 코로나 바이러스의 치료제를 찾기 쉽지 않은 것은 이처럼 돌연변이가 발생하기 때문이다. 기존에는 RNA 복제에 사용되는 핵심 단백질을 찾아내는 방법을 이용했는데, 돌연변이가 빠르게 나타나 이를 찾기가 쉽지 않았다.

그래픽=조선디자인랩 이연주

연구진은 이를 극복하기 위해 루카프로트(LucaProt)라는 AI 모델을 개발했다. 여기에 메타의 ESM 폴드 기술이 들어갔다. 이 단백질 추측 AI 모델은 오픈AI가 개발한 챗GPT 같은 대규모 언어 모델(LLM)을 기반으로 한다. 방대한 양의 유전 정보를 미리 학습한 뒤 단백질 구조를 예측하는 원리다. 비슷한 AI 모델이 이번에 노벨상 수상자의 공로로 인정받은 구글 딥마인드의 알파폴드다. 메타는 “ESM 폴드가 구글 딥마인드 기술보다 최대 60배 빠르다”고 설명한다. 다만 정확도는 알파폴드보다 떨어진다는 평가를 받는다.

연구진은 이번 연구에서 약 16만개의 RNA 바이러스를 확인했다. 그 가운데는 소금 호수, 온천 같은 바이러스가 생존하기에는 극한의 환경에서 발견되는 바이러스도 있었다. 특히 7만500개는 지금까지 알려지지 않은 바이러스였다. 앞서 같은 연구진은 2022년에는 데이터베이스에 저장된 570만개의 유전자 샘플을 이용해 13만2000개의 새로운 RNA 바이러스를 확인한 바 있다.

◇질병 극복에 도움

연구진은 새롭게 발견한 RNA 바이러스의 숙주를 예측하는 모델을 개발하고 있다. 호주 연방과학산업연구기구(CSIRO) 재키 마하르 박사는 네이처에 “바이러스 영역을 확장하는 데 정말 유망한 접근 방식”이라며 “미생물의 기원과 다양한 숙주에서 어떻게 진화했는지 이해하는 데 도움이 될 것”이라고 말했다.

과학계에서 AI 모델이 연구의 영역을 확장할 뿐만 아니라 신약 개발 등 산업 발전에 획기적인 기여를 할 것으로 기대된다. 앞서 메타의 ESM 폴드는 6억개가 넘는 단백질 구조를 예측한 성과를 국제 학술지 ‘사이언스’에 발표했다. 약 2000개 정도의 그래픽 처리 장치(GPU)를 이용해 단 2주 만에 얻어낸 성과다. 구글 딥마인드의 알파폴드 역시 2억개의 단백질 구조를 예측했다. 생명의 기본 단위인 단백질 구조를 알면 의학, 에너지 등 분야에 활용할 수 있다. 여기에 AI는 인간 과학자와 비교할 수 없는 빠른 속도를 가졌다. 예컨대 코로나 바이러스 이후 새로 창궐할 질병을 예측할 수 있고, 이에 대비할 수 있는 백신을 속도 있게 개발할 수 있을 전망이다.

☞RNA 바이러스

유전정보가 리보핵산(RNA)으로 이뤄진 바이러스를 말한다. 체내에 들어가 유전정보를 복제하는 과정에서 돌연변이가 많이 생기는 특성이 있다. RNA 바이러스로 발생하는 대표적인 질병으로 감기, 사스, 메르스, 코로나 등이 있다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?