[이은희의 미래를 묻다] 유전정보 비밀 밝혀내 질병 원인 찾고, 첨단 신약 만든다

2024. 10. 7. 00:32
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

이은희 과학커뮤니케이터

영화 ‘이미테이션 게임’은 2차 세계대전 시기, 독일군의 암호체계 에니그마(Enigma)를 해독하기 위한 영국정보부의 기밀 프로젝트팀의 이야기를 다루고 있다. 에니그마는 알파벳을 매번 다른 글자로 치환하는 것이 특징이었는데, 이처럼 알파벳 26자를 무작위로 바꾼다면, 가능한 경우의 수는 1만7576가지나 된다. 영화 속 주인공이자 실존 인물이었던 튜링은 이처럼 수많은 경우의 수를 계산하기 위해서는 사람의 손과 연필을 넘어서는 장치가 필요하다고 생각했고, 결국 이 생각은 최초의 컴퓨터 개발로 이어진다.

에니그마를 사용하는 독일군의 모습. 중앙포토

「 갈수록 진화하는 생물정보학
생체 분석 위해 정보기술 접목
30억 DNA 염기쌍 사람 유전체
복잡한 연산, 컴퓨터·AI로 해결

튜링이 독일군의 암호 해독을 위해 애쓰던 시기, 생물학자들은 자연이 만들어낸 암호를 발견하고 이를 해독하기 위해 애쓰고 있었다. 이들이 찾아낸 암호는 DNA였다. 하지만 유전물질의 정체를 알아냈음에도 유전정보의 해독은 여전히 난제였다. 인간유전체계획(human genome project)에서 밝혀낸 최신 정보에 따르면 사람의 유전체는 총 30억 5500만 개의 DNA 염기쌍으로 이루어져 있고, 이 중 단백질을 만드는 정보를 담은 부위, 즉 유전자의 수는 총 1만 9969개이다. 30억에 달하는 염기서열을 순서대로 기억하는 것도, 2만여 개의 유전자들의 기능과 위치와 상호 작용을 기억하는 것도 인간의 뇌가 처리할 수 있는 수준을 넘어선다. 여기에 사람의 유전자는 2만 개 남짓이지만, 여기서 만들어지는 단백질의 가짓수는 5만에 이른다는 것을 생각하면 더욱 절망적이다. 적은 수의 유전자로 더 많은 수의 단백질을 만들기 위해서는 반드시 둘 이상의 유전자들을 조합하는 과정이 필요할 테고, 이 때문에 계산해야 할 경우의 수는 크게 늘 수밖에 없다. 여기에서 ‘생물정보학’(bioinformatics)의 개념이 본격 등장한다.

생명체와 정보학의 만남

인공지능(AI) 그림 생성기 ‘달리(DALL·E)’를 이용해 그린 생물정보학 이미지.

생물정보학이란, 말 그대로 생물(bio)과 정보학(informatics)의 합성어로, DNA나 단백질 같은 생체 분자의 구성이나 구조를 저장·검색·분석·예측하기 위해 정보 기술을 접목한 학문을 의미한다. 생물정보학의 필요성이 대두된 것은 DNA와 단백질의 관계가 알려진 1960년대부터지만, 현실적인 문제로 인해 본격적으로 생물정보학이 발달한 것은 20세기 후반부터였다. 방대한 유전정보와 단백질 정보에 관련된 데이터를 분석하고 저장하고 처리하기 위해서는 생물학 그 자체의 발전뿐 아니라, 수학과 전산학·통계학·전자공학 등 관련 분야의 학술적 및 기술적 지원이 필수적이기 때문이었다.

생물정보학의 분야는 매우 다양하나, 일단 생물학적 데이터베이스를 구축하는 것부터 시작한다. 사람의 유전 정보를 분석한 인간유전체 프로젝트나, 알려진 단백질의 3차원 구조에 대한 데이터를 저장하는 단백질 데이터 뱅크 시스템이 대표적이다. 또한 일단 구축된 데이터베이스는 고정되는 것이 아니라, 끊임없는 업데이트를 통해 계속 새로워진다. 인간유전체 프로젝트는 이미 2003년에 완료된 것으로 알려져 있지만, 이후에도 누락된 부분이나 오류에 대한 업데이트가 꾸준히 진행되고 있다. 현재는 38번째 버전(GRCh38)까지 나와 있는 상태다. 이러한 방대한 데이터베이스의 구축은 그 자체로 연구자들에게는 귀중한 자산이 된다.

개별 정보 의미·패턴 찾아 예측

다분자 단백질 중 하나의 구조를 나타낸 모습. 단백질은 아미노산이 배열된 순서에 따라 다양한 형태로 꼬여 있는 3차원 구조로 돼 있다. CASP

여기서 질문을 하나 던져보자. 사람들은 왜 정보를 모아서 데이터베이스를 구축하려 할까. 정보의 자료화 자체도 중요하겠지만, 더 큰 목적은 개별적인 정보의 의미와 관계를 분석하고 패턴을 찾아 다음을 예측하는 자료로 사용하기 위함일 것이다. 따라서 생물정보학의 연구 분야 중 커다란 축을 차지하는 것이 예측 분야이며, 대표적인 것이 단백질의 3차원 구조 예측이다. 단백질은 다양한 아미노산들의 조합으로 이루어지는 고분자물질인데, 단백질이 제 기능을 하기 위해서는 아미노산들의 연결 부위가 접히고 꼬여 고유한 3차원 구조를 형성해야 한다. 유전정보가 알려주는 건 단백질을 구성하는 아미노산의 종류와 순서일 뿐이다. 아미노산의 서열만으로 단백질의 최종 3차원 구조를 알아내는 건 지극히 어렵다. 단백질의 구성 성분인 아미노산의 연결되는 방식은 양쪽으로 접히는 경첩과 같아서 어느 쪽으로든 접힐 수 있다. 심지어 이렇게 한 번 접힌 단백질들은 다시 여러 개가 얽혀서 더 복잡한 구조를 가지기도 한다. 아미노산 서열만으로 최종 구조를 예측하는 데도 천문학적 연산이 필요하다. 기존에는 이를 계산하기 위해 수퍼컴퓨터가 필요했다. 하지만, 최근에는 알파폴드(alpha-fold)와 같은 인공지능을 이용해 단백질의 구조를 예측하는 등 다양한 방식으로 이 난제를 해결하는 방법을 찾아내고 있다. 이렇게 엄청난 복잡성에도 불구하고 단백질의 3차원 구조를 정확히 예측할 수 있다면 그 활용 가능성은 무궁무진하다. 예를 들어, 바이러스가 사람 세포에 침투할 때 갈고리처럼 사용하는 단백질의 아미노산 서열을 분석해 3차원 구조를 정확하게 예측할 수 있다면, 이를 무력화화는 지점을 찾아 기능을 잃게 만드는 것도 어렵지 않게 된다. 이처럼 단백질의 구조를 정확히 아는 것은 질병의 원인을 찾고 백신을 제조하며, 타깃 포인트를 정확히 설정한 신약을 개발하는 데 있어 결정적인 효용성을 가지는 방식이 된다.

생물정보학은 생물학의 연구 대상을 ‘생명체’와 ‘생물종’이라는 눈에 보이는 거시적 대상에서, 이들을 구성하고 변하게 만드는 정보를 담은 DNA와 단백질이라는 분자 코드로 바꾸어 접근한다는 관점의 전환을 가져왔다. 미래는 언제나 불확실하지만 적어도 분자적 코드를 이용해 생물을 연구하는 생물정보학의 분야가 앞으로 더욱 확장되리라는 것만큼은 분명해 보인다.

이은희 과학커뮤니케이터

Copyright © 중앙일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?