돈으로 쓴 논문들의 무덤[김우재의 플라이룸](75)

과학에도 거품이 있다. 주식시장처럼 과학의 거품 역시 처음엔 혁명처럼 보이다가 나중엔 낭비의 흔적만 남긴다. 2000년대 초 DNA 마이크로어레이(microarray·DNA 칩)가 그랬고, 지금은 단세포 RNA 시퀀싱(sequencing)이 그러하며, 인공지능(AI) 분야에서는 대형언어모델(LLM)이 그러하다. 이 세 가지 거품의 공통점이 있다. 엄청난 돈이 들어갔고, 화려한 데이터가 쏟아졌음에도 정작 우리가 알고 싶었던 인과관계는 여전히 안개 속에 있다는 점이다. 우리는 지금 측정하는 능력은 폭발적으로 증가했지만, 이해하는 능력은 제자리를 맴도는 기묘한 시대에 살고 있다.
2000년대 초반, 미국 유전체 분석기업 아피메트릭스(Affymetrix) 칩 하나면 수만개 유전자의 발현량을 한 번에 측정할 수 있었다. 당시 연구자들의 흥분은 이해할 만했다. 암 조직, 뇌, 간 심지어 통제가 부실한 샘플에도 앞다퉈 칩을 돌렸다. 학술지에는 “유전자 발현 서명”이라는 그럴듯한 이름의 논문이 쏟아졌다. 그러나 그 흥분이 가라앉은 자리에 남은 것은 재현성 없음이라는 딱지가 전부였다. 더 이상 누구도 DNA 칩 연구를 하지 않는다.
2009년 ‘네이처’ 유전학에 발표된 연구는 냉혹한 진실을 드러냈다. 2005~2006년 같은 저널에 게재된 마이크로어레이 기반 유전자 발현 논문 18편에 대해 두 독립 팀이 재현을 시도한 결과, 완전히 재현된 분석은 단 2편뿐이었고, 10편은 아예 재현이 불가능했다. 실패의 주원인은 데이터가 공개되지 않았거나, 분석 방법이 불완전하게 기술돼 있었다는 것이다. 마이크로어레이 측정의 신뢰성과 재현성 문제는 구조적이었다.
노벨상 수상자 시드니 브레너는 2006년 이 문제를 정확히 짚었다. 그는 대규모 유전체 시퀀싱이 낳은 현상을 “공장 과학”이라 불렀다. 100대의 시퀀서를 갖추면 약 1억달러의 투자가 들어간다. 그 기계를 쉬게 할 수 없으니 과학이 기계를 위해 봉사하는 역설이 생긴다. 브레너는 이를 “저투입, 고처리량, 무산출 생물학”이라 비판했다. 유전자를 발견한다고 해서 그 단백질이 중요한 기능을 한다는 의미는 아니라고, 세포가 어떻게 작동하는지에 대한 이론이 먼저 있어야 한다고 그는 주장했다. 그러나 그의 경고는 메아리 없이 사라졌고, 역사는 반복되기 시작했다.
단세포 시퀀싱과 오믹스의 환상
오늘날의 풍경은 마이크로어레이 시대의 데자뷔다. 미국의 유전체 분석기업 10x 지노믹스(Genomics)의 상용 기기가 보급되면서 단세포 RNA 시퀀싱의 진입장벽이 낮아졌고, 논문들은 이제 거의 공식처럼 움직인다. 조직 샘플을 구하고, 10x 지노믹스에 돈을 넣고, Seurat이나 Scanpy(데이터분석 소프트웨어)로 클러스터링(군집화)하고, 화려한 UMAP를 그린 후 “우리는 X 조직에서 Y 세포 유형을 발견했다”고 쓰고, “이 데이터는 귀중한 리소스를 제공한다”로 결론을 맺는다. 과학적 질문은 없다. 인과관계도 메커니즘도 없다. 기능 검증 실험도 필요 없다. 오직 예쁜 그림과 유전자 목록만 남는다.
프레차 쾰른 대학 교수는 “오믹스의 환상”이라는 글에서 이 문제의 핵심을 짚었다. 오믹스 데이터는 대개 유전자 기능 자체를 보여주는 것이 아니라 실험적 교란에 대한 세포의 하위 반응을 보여줄 뿐이라는 것이다. 단세포 분석으로 더욱 세밀한 해상도를 얻어도, 그것은 유전자 결실에 대한 세포의 반응을 더 높은 해상도로 보여줄 뿐이지, 유전자의 진짜 기능을 밝히는 것이 아니다. 더 근본적으로, 수십만개의 유전자를 들여다보면 당연히 무언가는 나올 것이다. 그러나 그것이 의미 있는 발견인지, 아니면 그저 노이즈일 뿐인지는 데이터가 아니라 오직 질문을 통해서만 나타날 수 있다.
그런 의미에서 미국이 야심 차게 추진했던 커넥텀 연구가 뇌과학에 별다른 기여 없이 수많은 비판에 직면하다 결국 예산마저 삭감된 것은 당연한 귀결이다.
AI 분야에서도 똑같은 역사가 진행 중이다. 인지과학자 게리 마커스는 강화학습 분야의 튜링상 수상자 리치 서튼마저 “순수 LLM”에 대한 회의론으로 돌아섰다며 스케일링의 시대가 사실상 막을 내렸다고 선언했다. 서튼은 2019년 “쓴 교훈”이라는 에세이를 통해 AI의 발전은 항상 더 많은 계산량의 투입에서 왔다는 스케일링 낙관론의 대부로 통했다. 그런 그조차 이제는 순수한 예측 기반 모델의 한계와 세계 모델의 필요성을 인정하게 된 것이다.
마커스의 핵심 비판은 간단하다. LLM은 패턴 인식의 극한을 달리지만, 그것이 세계의 작동 원리를 이해한다는 의미는 아니다. 더 많은 데이터, 더 많은 파라미터, 더 많은 돈이 곧바로 인과적 추론과 진정한 이해를 가져다주지는 않는다. 오믹스 생물학과의 유비는 섬뜩할 만큼 정확하다. 두 분야 모두에서 자본이 기계를 돌리고, 기계가 과학의 방향을 결정한다. 이것이 공장 과학의 본질이다.
자본주의 과학의 대가, 다양성 소멸
이 구조가 야기하는 가장 심각한 문제는 과학의 다양성 소멸이다. 브레너가 지적했듯, 300명의 인력과 수백억원의 장비를 가진 연구실이 필드를 장악할 때, 작은 실험실에서 근본적으로 다른 질문을 하는 젊은 과학자들이 설 자리는 없어진다. 논문 편수와 피인용 지수로 평가받는 시스템은 데이터의 양을 보상하고, 질문의 독창성을 처벌한다. 값비싼 오믹스 장비 없이는 경쟁조차 할 수 없는 구조 속에서, 유행하는 기술 없이는 연구비를 받기 어려운 현실 속에서 막스 델브릭이 강조했던 “유행을 따르지 말라”는 금언은 생존을 포기하라는 말과 같아진다.
그 결과는 역사가 이미 보여주었다. 마이크로어레이의 거품이 꺼진 자리엔 재현 불가능한 논문들의 무덤이 남았다. GEO 데이터베이스에 쌓인 수만개의 마이크로어레이 데이터셋 중 얼마나 많은 것이 실제로 후속 연구에서 의미 있게 활용됐는지 물어야 한다. 단세포 RNA 분석으로 쏟아지는 ‘아틀라스’ 논문도 10년 후엔 같은 운명을 맞을 가능성이 높다. 재현되지 않는 연구는 과학을 오도하고, 연구비를 낭비하며, 과학에 대한 공공의 신뢰를 잠식한다.
과학의 건강성은 다양성에 있다. 비싼 장비가 없어도, 대형 연구실이 아니어도, 유행하는 기술이 아니어도 좋은 질문을 할 수 있는 환경. 인과관계를 파헤치는 끈질긴 실험이, 수천개의 유전자를 한꺼번에 내뱉는 오믹스 데이터와 동등하게 평가받는 구조. LLM이 “스케일링이 전부가 아니다”라는 쓴 교훈을 뒤늦게 깨닫고 있듯, 오믹스 생물학도 같은 교훈을 반드시 직면해야 한다. 데이터는 질문을 대신할 수 없다. 기계는 사유를 대신할 수 없다. 자본은 과학적 이해를 살 수 없다.
김우재 낯선 과학자
Copyright © 주간경향. 무단전재 및 재배포 금지.
- 골프 황제 ‘불명예 퇴위’? 스스로 무너진 우즈
- 이 대통령 “무슨 계획만 하면 6개월, 1년 그러던데…잠 더 줄이자”
- 미국 수돗물도 절반 가까이 오염…세계는 지금 ‘영원한 화합물’과 사투
- 트럼프, 이젠 국내 비판론자들과 ‘전쟁’…“멍청한 패배자들, 그들은 마가 아냐”
- [거꾸로 읽는 한국 여성문학 100년](26) 문화의 경계에서 글 쓰는 여자, 번역하는 여자
- 데이터 다 써도 안 끊긴다…이통3사, 추가요금 없이 저속 이용 보장
- [김우재의 플라이룸](75) 돈으로 쓴 논문들의 무덤
- [김정호의 생명과 환경](11) 생리혈로 HPV를 검출한다
- [가장 급진적인 로컬, 동네서점](5) 서울 만리동 콜링 유, ‘만유인력’
- 문 닫는 소리에도 화들짝…전쟁 트라우마 노출된 이란 어린이들