AI 신약 개발 관건은 '데이터 공유'…K바이오 선순환 생태계 구축
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
"한 연구자의 연구 결과물은 다른 연구자의 시작점이 될 수 있는 아주 중요한 사료입니다. 이것이 지속적으로 공유될 수 있는 체계가 수립돼 전체적인 선순환 구조가 우리나라에 잘 정착되는 것이 중요합니다."
KISTI는 'AI 데이터 기반 디지털 바이오 선도 사업'을 통해 난치성 암, 대사질환, 치매, 천연물 신약 등 4개 분야와 관련된 국내 연구 데이터도 수집하고 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

"한 연구자의 연구 결과물은 다른 연구자의 시작점이 될 수 있는 아주 중요한 사료입니다. 이것이 지속적으로 공유될 수 있는 체계가 수립돼 전체적인 선순환 구조가 우리나라에 잘 정착되는 것이 중요합니다."
이준학 한국과학기술정보연구원(KISTI) 디지털바이오컴퓨팅연구단장은 24일 서울 여의도 콘래드호텔에서 열린 2025 키플랫폼'(K.E.Y. PLATFORM 2025) 특별세션 파트1에서 이와 같이 말했다. 그는 "지난해 노벨상을 받은 구글 딥마인드의 알파폴드의 경우에도 인공지능 기술 그 자체만이 아니라 근간에 있는 단백질 데이터 베이스라고 불리는 수십 년간 단백질의 구조를 데이터화하고 이를 완전히 공개해서 누구나 활용할 수 있게 만든 데이터 공유 체계가 중요한 것"이라고 덧붙였다.
이 단장의 발표는 'AI-HPC(High Performace Computer, 고성능 컴퓨팅) 기반 디지털 바이오 전략'을 주제로 진행됐다. 그는 "앞으로 인공지능을 활용한 신약 개발과 관련해 전체 바이오파마의 예산 중 4~5%가 사용될 것이라고 예측하고 있다"며 "현재 우리는 엄청 많은 데이터와 인공지능 기술을 이용해서 바이오 분야의 엄청난 혁신을 이룰 수 있는 삼박자가 모두 갖춰진 상황에 있다"고 말했다.
다만 이 단장은 현재 한국은 전력 생산에 필요한 자원부터 GPU(그래픽처리장치), 거대언어모델(LLM) 등 인공지능을 활용한 연구의 핵심 요소를 해외에 의존하고 있다는 점을 지적했다. 그는 "이러한 상황에서 우리나라는 데이터에 집중해야 한다"며 "특히 바이오와 관련해 우리가 축적할 수 있는 데이터가 전 세계 인구 중 가장 많은 부분을 차지하고 있는 동아시아인의 데이터라는 점이 가장 중요하다"고 말했다.
이 단장이 속한 KISTI 지난해부터 시작된 '국가 통합 바이오 빅데이터 구축 사업'에 참여하고 있다. 해당 사업은 한국인 100만명의 유전체 데이터를 수집한 후, 국내 연구자들이 우선적으로 활용할 수 있도록 제공하는 것을 목적으로 한다. 이는 향후 국내 제약·바이오 회사와 글로벌 빅파마의 협업 토대가 될 수도 있을 것으로 보인다. 방대한 데이터를 보유하고 있지만 폐쇄적인 중국과 혈통을 중심으로 데이터를 축적하고 있는 일본 등 다른 동아시아 국가와 달리 범용성 있는 데이터베이스를 갖출 수 있어서다.
현재 미국과 영국, 중국 등 주요국은 자국민들의 유전체 데이터와 다양한 진단 결과, 약물 복용 결과 등을 수집하는 프로젝트를 진행하고 있다. 미국의 '올 오브 어스', 영국의 'UK 바이오뱅크', 중국의 '카두리 바이오뱅크' 등이 대표적이다. UK 바이오뱅크의 경우 약 20년간 지속돼 젊었을 때 프로젝트에 참여하기 시작한 참가자들이 그사이 암에 걸리거나 사망하는 등 다양한 임상적·의료적 이벤트(사건)가 발생하며 관련 데이터가 축적되고 있다. 현재 전 세계의 수많은 바이오 분야 연구자들이 UK 바이오뱅크의 데이터를 분양받아 연구하고 있다.
KISTI는 'AI 데이터 기반 디지털 바이오 선도 사업'을 통해 난치성 암, 대사질환, 치매, 천연물 신약 등 4개 분야와 관련된 국내 연구 데이터도 수집하고 있다. 이를 기반으로 연구자들이 활용할 수 있는 파운데이션 모델을 만드는 것을 목표로 한다. 이 단장은 이와 관련해 연구계에서 네거티브 데이터에 대한 공유 논의가 아직 덜 된 상태이지만 실패한 연구 데이터까지 수집하는 것이 파운데이션 모델 개발의 핵심이라고 짚었다.
그는 "아주 성공적인 실험 결과를 가지고 논문을 작성하는 게 연구자들의 패턴이고 실패한 결과는 각 연구원들의 컴퓨터 안에 엑셀 파일로 저장돼 있을 뿐"이라며 "AI 모델은 잘 된 결과만 갖고 있으면 편향된 학습이 이루어지기 마련이라 잘된 결과와 잘못된 결과가 동시에 학습돼야만 사실상 가장 똑똑한 AI 모델로 거듭날 수 있다"고 말했다.
김선아 기자 seona@mt.co.kr
Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.
- 이국주, 도쿄 '9평 원룸'서 사는 근황…일본으로 떠난 이유가 - 머니투데이
- 배종옥 "남자 배우들 '미투급' 음담패설" 폭로…"방송국 가기 싫었다" - 머니투데이
- "난 성소수자" 공연 중 밝힌 남자 아이돌…"박수 보낸다" 멤버도 응원 - 머니투데이
- 故 강지용 우울감 걱정했는데…'이혼숙려' 심리 전문가 "안타깝다" - 머니투데이
- "대로변서 무릎도 꿇어봤다" 김혜은, 가부장적인 남편 만행 폭로 - 머니투데이
- "칼 들고 뛰어다닌다" 어린이공원 입구 10대 흉기 난동...2명 부상 - 머니투데이
- 권민아, 새해 첫날 "또 구조가 됐네요?"...누리꾼들 "내가 잘 사는게 복수야" - 머니투데이
- "그대로 굴렀으면 대참사"…180kg 거대 공에 달려든 '디즈니 영웅' - 머니투데이
- '톰과 제리' 성우 송도순 별세, 향년 76세…배우 박준혁 모친상 - 머니투데이
- '병오년' 새해 주목되는 제약·바이오사…삼성에피스·ABL·유한 - 머니투데이