AI 신약 개발 관건은 '데이터 공유'…K바이오 선순환 생태계 구축

김선아 기자 2025. 4. 24. 17:39
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

"한 연구자의 연구 결과물은 다른 연구자의 시작점이 될 수 있는 아주 중요한 사료입니다. 이것이 지속적으로 공유될 수 있는 체계가 수립돼 전체적인 선순환 구조가 우리나라에 잘 정착되는 것이 중요합니다."

KISTI는 'AI 데이터 기반 디지털 바이오 선도 사업'을 통해 난치성 암, 대사질환, 치매, 천연물 신약 등 4개 분야와 관련된 국내 연구 데이터도 수집하고 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[2025 키플랫폼] 특별세션1…이준학 한국과학기술정보연구원 디지털바이오컴퓨팅연구단장
이준학 한국과학기술정보연구원 디지털바이오컴퓨팅연구단장이 24일 영등포구 콘래드 서울 호텔에서 머니투데이 주최로 진행된 '2025 키플랫폼' 특별세션에서 'AI-HPC 기반 디지털 바이오 전략'에 대해 발표하고 있다. /사진=김창현 chmt@


"한 연구자의 연구 결과물은 다른 연구자의 시작점이 될 수 있는 아주 중요한 사료입니다. 이것이 지속적으로 공유될 수 있는 체계가 수립돼 전체적인 선순환 구조가 우리나라에 잘 정착되는 것이 중요합니다."

이준학 한국과학기술정보연구원(KISTI) 디지털바이오컴퓨팅연구단장은 24일 서울 여의도 콘래드호텔에서 열린 2025 키플랫폼'(K.E.Y. PLATFORM 2025) 특별세션 파트1에서 이와 같이 말했다. 그는 "지난해 노벨상을 받은 구글 딥마인드의 알파폴드의 경우에도 인공지능 기술 그 자체만이 아니라 근간에 있는 단백질 데이터 베이스라고 불리는 수십 년간 단백질의 구조를 데이터화하고 이를 완전히 공개해서 누구나 활용할 수 있게 만든 데이터 공유 체계가 중요한 것"이라고 덧붙였다.

이 단장의 발표는 'AI-HPC(High Performace Computer, 고성능 컴퓨팅) 기반 디지털 바이오 전략'을 주제로 진행됐다. 그는 "앞으로 인공지능을 활용한 신약 개발과 관련해 전체 바이오파마의 예산 중 4~5%가 사용될 것이라고 예측하고 있다"며 "현재 우리는 엄청 많은 데이터와 인공지능 기술을 이용해서 바이오 분야의 엄청난 혁신을 이룰 수 있는 삼박자가 모두 갖춰진 상황에 있다"고 말했다.

다만 이 단장은 현재 한국은 전력 생산에 필요한 자원부터 GPU(그래픽처리장치), 거대언어모델(LLM) 등 인공지능을 활용한 연구의 핵심 요소를 해외에 의존하고 있다는 점을 지적했다. 그는 "이러한 상황에서 우리나라는 데이터에 집중해야 한다"며 "특히 바이오와 관련해 우리가 축적할 수 있는 데이터가 전 세계 인구 중 가장 많은 부분을 차지하고 있는 동아시아인의 데이터라는 점이 가장 중요하다"고 말했다.

이 단장이 속한 KISTI 지난해부터 시작된 '국가 통합 바이오 빅데이터 구축 사업'에 참여하고 있다. 해당 사업은 한국인 100만명의 유전체 데이터를 수집한 후, 국내 연구자들이 우선적으로 활용할 수 있도록 제공하는 것을 목적으로 한다. 이는 향후 국내 제약·바이오 회사와 글로벌 빅파마의 협업 토대가 될 수도 있을 것으로 보인다. 방대한 데이터를 보유하고 있지만 폐쇄적인 중국과 혈통을 중심으로 데이터를 축적하고 있는 일본 등 다른 동아시아 국가와 달리 범용성 있는 데이터베이스를 갖출 수 있어서다.

현재 미국과 영국, 중국 등 주요국은 자국민들의 유전체 데이터와 다양한 진단 결과, 약물 복용 결과 등을 수집하는 프로젝트를 진행하고 있다. 미국의 '올 오브 어스', 영국의 'UK 바이오뱅크', 중국의 '카두리 바이오뱅크' 등이 대표적이다. UK 바이오뱅크의 경우 약 20년간 지속돼 젊었을 때 프로젝트에 참여하기 시작한 참가자들이 그사이 암에 걸리거나 사망하는 등 다양한 임상적·의료적 이벤트(사건)가 발생하며 관련 데이터가 축적되고 있다. 현재 전 세계의 수많은 바이오 분야 연구자들이 UK 바이오뱅크의 데이터를 분양받아 연구하고 있다.

KISTI는 'AI 데이터 기반 디지털 바이오 선도 사업'을 통해 난치성 암, 대사질환, 치매, 천연물 신약 등 4개 분야와 관련된 국내 연구 데이터도 수집하고 있다. 이를 기반으로 연구자들이 활용할 수 있는 파운데이션 모델을 만드는 것을 목표로 한다. 이 단장은 이와 관련해 연구계에서 네거티브 데이터에 대한 공유 논의가 아직 덜 된 상태이지만 실패한 연구 데이터까지 수집하는 것이 파운데이션 모델 개발의 핵심이라고 짚었다.

그는 "아주 성공적인 실험 결과를 가지고 논문을 작성하는 게 연구자들의 패턴이고 실패한 결과는 각 연구원들의 컴퓨터 안에 엑셀 파일로 저장돼 있을 뿐"이라며 "AI 모델은 잘 된 결과만 갖고 있으면 편향된 학습이 이루어지기 마련이라 잘된 결과와 잘못된 결과가 동시에 학습돼야만 사실상 가장 똑똑한 AI 모델로 거듭날 수 있다"고 말했다.

김선아 기자 seona@mt.co.kr

Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.