인공지능 이용해 신종 RNA 바이러스 7만개 발견
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
중국 과학자들이 인공지능(AI)을 사용해 그동안 과학계에 알려지지 않았던 7만500개의 리보핵산(RNA) 바이러스를 발견했다.
중국 중산대, 알리바바 클라우드, 호주 시드니대 등 공동연구팀은 단백직 구조 분석 및 예측 AI 모델인 루카프롯(LucaProt)을 개발하고 루카프롯을 이용해 16만 개 이상의 RNA 바이러스를 찾았다고 9일 국제학술지 '셀'에 발표했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
중국 과학자들이 인공지능(AI)을 사용해 그동안 과학계에 알려지지 않았던 7만500개의 리보핵산(RNA) 바이러스를 발견했다.
유전정보를 RNA로 저장하는 RNA 바이러스는 체내에 침투한 뒤 바이러스를 늘리기 위해 유전정보를 복제하는 과정에서 돌연변이를 잘 일으키는 바이러스다. 인플루엔자 바이러스, 코로나 바이러스, 레오바이러스, 레트로바이러스 등이 RNA 바이러스다.
중국 중산대, 알리바바 클라우드, 호주 시드니대 등 공동연구팀은 단백직 구조 분석 및 예측 AI 모델인 루카프롯(LucaProt)을 개발하고 루카프롯을 이용해 16만 개 이상의 RNA 바이러스를 찾았다고 9일 국제학술지 '셀'에 발표했다.
세상에 존재하는 바이러스 중 인간이 알고 있는 바이러스는 극히 일부다. 캐나다 계산 바이러스학자인 아르템 바바이안은 "바이러스 수는 끝이 없다고 할 수 있을 정도로 많다"면서 "바이러스를 많이 알수록 원인을 알 수 없는 질병을 보다 잘 치료하고 설명할 수 있다"고 11일 국제학술지 '사이언스'를 통해 설명했다.
특히 RNA 바이러스를 발견하는 것은 쉽지 않다. RNA 바이러스는 또 다른 바이러스인 DNA 바이러스보다 빠르게 진화해 구조가 계속 변하기 때문이다. RNA 바이러스를 식별하려면 일반적으로 바이러스 유전체(게놈)에서 'RNA 의존성 RNA 중합 효소(RDRP)'가 인코딩되는 부위를 분석하고 바이러스 구조를 예측하며 AI를 이용해 찾는다. RDRP는 DNA가 없는 모든 RNA 바이러스의 게놈에 암호화된 필수 단백질로 RNA 바이러스가 증식하는 데 핵심 역할을 한다.
문제는 RNA 바이러스 내에서 RDRP가 인코딩되는 순서(시퀀스)가 기존에 보고된 시퀀스와 크게 다를 수 있다는 점이다. 연구팀은 페이스북의 모회사인 메타가 개발한 단백질 구조 예측 AI 모델 'ESM폴드(ESMFold)'를 이용해 단백질 예측 AI 모델인 루카프롯을 개발했다. 루카프롯에 ESM폴드의 단백질 구조 예측 데이터부터 RDRP가 인코딩 되는 방대한 시퀀스 데이터까지 학습시켰다.
루카프롯을 작동시킨 결과, 약 16만 개의 RNA 바이러스를 찾았다. 해저열수분출구, 온천, 소금호수, 공기 등에서 발견되는 바이러스도 포함됐다. AI가 극한 환경에서 발견되는 바이러스까지 찾아낸 것이다. 약 16만 개의 RNA 바이러스 중 7만500개는 지금껏 학계에 보고 되지 않은 바이러스였다.
연구에 참여한 에드워즈 홈스 시드니대 교수는 "단일 연구에서 가장 많은 수의 새로운 바이러스를 발견한 연구로 바이러스에 대한 인간의 지식을 매우 확장했다"면서 "극한 환경에서 사는 바이러스는 바이러스를 비롯한 생명체가 어떻게 생겨났는지에 대한 단서를 제공할 수 있다"고 말했다.
[이채린 기자 rini113@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.