유전자 빅데이터서 단 3%… 유용한 정보만 쏙쏙 골라내는 도구 개발

홍아름 기자 2024. 5. 9. 10:25
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

김재경 IBS CI 연구진 “개인 맞춤형 정밀 의학 정확도 높일 수 있어”
김재경 기초과학연구원(IBS) 의생명 수학 그룹 CI./IBS

개인의 임상 정보, 유전적 요인과 환경, 질병 이력, 생활 습관을 바탕으로 환자 개인에 맞는 맞춤형 치료법을 제공하는 정밀 의학 시대가 열렸다. 사람마다 다른 유전적 특징을 알아내는 기술이 비약적으로 발전한 덕분이다. 국내 연구진이 더 빠르고, 정확하게 전사체를 해독할 수 있는 새로운 도구를 개발했다.

김재경 기초과학연구원(IBS) 수리 및 계산 과학 연구단 의생명 수학 그룹 CI(Chief Investigator) 겸 KAIST 수리과학과 교수 연구진은 전사체 분석 빅데이터에서 유용한 생물학적 정보만 골라내는 새로운 도구인 ‘scLENS(single-cell Low-dimension Embedding using Effective Noise Subtraction)’를 개발했다고 9일 밝혔다.

단일세포 전사체 분석은 최근 생물학, 신약 개발, 임상 연구를 포함한 여러 분야에서 주목받는 도구다. 개별 세포 단위에서 유전적 변화를 확인할 수 있기 때문이다. 단일세포 전사체 분석을 이용하면 암 조직 내 수십 가지 종류의 세포를 구분하고, 유전적 변이가 발생한 세포만 표적 하는 정밀 치료가 가능해진다.

단일세포 전사체 분석 기술이 임상에 광범위하게 이용되려면, 도출되는 빅데이터에서 유용한 생물학적 신호를 찾아내는 효율적인 분석 도구 개발이 선행돼야 한다. 단일세포 전사체 분석은 개별 세포의 수만 개에 이르는 다양한 유전자 발현량을 측정하기 때문에 데이터 용량이 최대 수십 GB(기가바이트)에 달한다. 이 방대한 데이터 중 생물학적으로 유용한 신호는 3% 내외에 불과하다. 지금까지 여러 데이터 처리 도구가 개발됐으나 사용자가 생물학적 신호와 노이즈의 ‘경계선’을 직접 설정해야 해서 정확도가 떨어졌다.

연구진은 사용자가 노이즈의 임곗값을 결정하는 데이터 전처리 방식 자체가 생물학적 신호를 왜곡시킨다는 것을 규명하고, 왜곡 없는 새로운 전처리 방식을 개발했다. 나아가 연구진은 수학적 방법론인 ‘랜덤 행렬 이론’을 이용해 사용자의 주관적 선택 없이 자동으로 단일세포 전사체 분석 데이터에서 신호와 노이즈를 구별하는 프로그램인 ‘scLENS’를 개발했다. 랜덤 행렬 이론은 복잡한 시스템의 대규모 데이터를 통계학적으로 분석해 노이즈와 신호를 구분하는 수학적 방법론이다.

scLENS 개요./IBS

연구의 제1저자인 김현 연구원은 “scLENS는 사용자의 선택 없이 데이터에 내재된 구조만을 이용해 자동으로 신호와 노이즈를 구별하기 때문에 사용자 편향성 문제를 원천 차단할 수 있다”며 “연구자들의 노동집약적인 신호 선택 과정을 없애면서도 분석 정확성은 높였다”고 설명했다.

연구진은 기존에 개발된 11가지 데이터 분석 프로그램과 scLENS의 상대적 성능을 비교했다. 이를 통해 scLENS가 다른 모든 프로그램보다 우수한 성능을 보인다는 점을 확인했다. 널리 쓰이는 프로그램인 ‘쇠라(Seurat)’와 비교했을 때 scLENS는 세포 그룹화 성능이 약 10% 이상 우수하며, 데이터에 내재된 국소 구조를 43% 더 효과적으로 포착하는 것으로 나타났다. 특히 scLENS는 기존 프로그램보다 많은 계산을 하면서도 메모리 사용을 최적화해 10만 개의 세포와 2만 개의 유전자로 이뤄진 대규모 데이터를 3시간 만에 분석해 냈다.

연구를 이끈 김재경 CI는 “지난 십여 년간 단일세포 전사체를 분석할 수 있는 실험 기술이 비약적으로 발전했지만, 데이터 분석 방법의 한계로 인해 큰 비용과 시간을 투자해 얻은 데이터를 최대한 활용하지 못하는 경우가 많았다”며 “기초 수학 이론이 생명과학 연구의 혁신을 견인하고, 감춰졌던 생명의 비밀을 빠르고 정확하게 밝히는 데 쓰일 수 있음을 보여주는 연구”라고 말했다.

연구 결과는 국제 학술지 ‘네이처 커뮤니케이션즈(Nature Communications)’ 온라인판에 지난 4월 27일 실렸다.

참고 자료

Nature Communications(2024), DOI: https://doi.org/10.1038/s41467-024-47884-3

- Copyright ⓒ 조선비즈 & Chosun.com -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?