“화려한 발견이 아니었다”...가장 많이 인용된 논문 살펴보니 [교과서로 과학뉴스 읽기]

원호섭 기자(wonc@mk.co.kr) 2025. 4. 20. 15:45
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

가장 많이 인용된 논문, ‘발견’ 보다는 ‘도구’
과학계 실용성 평가 한계 이해
[이미지=챗GPT]
한 세기 동안 가장 많이 인용된 과학 논문은 무엇일까요? 일반적으로 사람들은 큰 과학적 ‘돌파구’가 담긴 논문이 가장 많이 인용될 것이라고 생각합니다. 그러나 실제로 가장 많이 인용되는 논문들은 과학의 혁신적 발견 그 자체보다는 연구 방법론이나 소프트웨어(SW)를 다룬 경우가 많았는데요. 최근 학술지 ‘네이처’가 이를 분석한 내용을 심층 기사로 실었습니다. 관련 내용을 소개해 드리려고 합니다.

먼저 용어가 생소하신 분들을 위해 ‘인용’에 대해 짧게 설명하겠습니다. 인용이란 다른 연구자의 논문이나 자료를 참고하고 이를 명시적으로 밝혀주는 행위를 뜻합니다. 논문을 보면 “이 실험 방법은 Smith et al.(2019)의 방식을 따랐다” 와 같은 문장을 쉽게 볼 수 있는데요. 이는 2019년 주저자가 스미스(Smith)인 사람이 쓴 논문을 인용, 그들의 방법을 참고했음을 의미합니다. 혹은 “본 연구는 Bandura의 사회적 학습 이론(1977)에 기반해 설계되었다”와 같은 문장도 마찬가지입니다.

즉 한 논문이 얼마나 많이 인용됐는지는 그 논문의 영향력과 학문적 가치를 나타내는 지표로 활용됩니다. 가끔 기사에서 “ㅇㅇ국가는 논문 발표 숫자는 많지만 인용수가 적은 것으로 나타났다”와 같은 문장을 보신 적이 있으실 텐데요. 이 의미는 논문을 많이 찍어내지만 ‘질 높은’ 논문 수는 적다, 라는 의미로 해석할 수 있습니다.

현재 전 세계에서 가장 많이 인용된 논문은 1951년 발표된 논문입니다. 용액 속 단백질량을 정확하게 측정하는 화학적 방법을 개발한 논문인데요. 인용 횟수가 현재까지 35만회가 넘습니다. 실험실에서 단백질 농도를 확인할 때 일반적으로 사용되는 방법입니다. 유튜브로 치면 ‘조회수’가 많은 콘텐츠라고 해야 할까요.

가장 많이 인용된 논문 [표=네이처]
이제 네이처의 분석으로 넘어가 보겠습니다. 네이처는 21세기들어 가장 많은 인용 수를 기록한 논문을 조사합니다. 데이터베이스에 따라 인용 횟수는 다소 차이가 있는 만큼 여러 조사를 거친 결과 2016년 마이크로소프트(MS)가 발표한 ‘심층 잔차 학습(Deep Residual Learning)’ 네트워크(ResNet)에 관한 논문이 1위를 차지합니다. 인용 횟수는 10만~25만입니다.

이 논문이 중요한 이유는 다음과 같아요. 신경망을 깊게 만들수록 AI의 성능은 좋아질 거라 생각했습니다. 그런데 실제로 그러지 않았습니다. 이유는 ‘신호 소실’이라는 문제가 있었기 때문입니다. 깊은 층으로 갈수록 ‘오차 정보’가 전달되지 않아 학습이 멈춰버린 거죠. MS 연구진은 간단한 아이디어를 제안합니다. “정보를 중간에서 우회하자”“어떤 층은 그냥 입력을 지나치게 놔두자.”

그래서 중간중간 입력 정보를 그대로 다음 층으로 보내줍니다. 이 논문 이후 AI 모델을 더 깊고 강력하게 만들 수 있게 됐습니다. 이 논문이 없었다면 알파고, 알파폴드, 챗GPT도 어려웠을 수 있다고 합니다. 이후 이 논문의 방법론은 컴퓨터 비전, 자연어 처리 모델에서 기본 뼈대처럼 쓰이고 있습니다.

네이처의 분석에 따르면, 두 번째로 많이 인용된 논문 역시 연구자들이 흔히 사용하는 방법론 논문이었습니다. 바로 유전자 발현 분석에 사용되는 실시간 정량 PCR 데이터 분석 방법을 제시한 논문입니다. 이 논문은 본래 연구자들이 사용자 매뉴얼을 인용할 수 없어서 별도의 논문 형태로 출판된 것인데요. 실험 결과를 정량적으로 분석할 수 있는 명확한 방법을 제공했다는 점에서 수많은 연구자의 필수 참고 문헌이 되었습니다. 2001년 발표된 이 논문의 인용 수는 14만9000회~18만5000회 정도입니다.

이 밖에도 많이 인용된 논문으로는 암 발생률과 사망률을 집계한 세계 암 통계 논문, 그리고 심리학 분야에서 연구 품질 향상을 위해 제시된 체계적 리뷰 방법론 논문 등이 있습니다. 이 논문들은 연구자들이 자신의 연구 과정에서 신뢰성과 정확성을 보장하기 위한 도구로 꾸준히 인용하고 있습니다.

또한 SW나 알고리즘을 소개한 논문들도 다수 포함됐습니다. 랜덤 포레스트(Random Forests) 알고리즘이나 파이썬 기반 기계학습 소프트웨어 ‘사이킷런(scikit-learn)’ 같은 논문은 연구자들이 별도의 개발 없이도 손쉽게 사용할 수 있는 강력한 분석 도구를 제공해 꾸준히 높은 인용을 기록하고 있습니다.

이러한 분석 결과가 주는 시사점은 명확합니다. 과학 발전을 이끄는 것은 화려한 발견만이 아니라 이를 가능하게 만드는 연구 방법과 도구라는 점입니다. 연구자들이 직접 활용하는 방법론과 SW의 가치는 실제 연구 과정에서 지속적으로 확인되며, 논문의 인용 수가 이러한 실용적 측면을 반영하고 있다는 것을 보여줍니다. 네이처는 또한 “인용 횟수가 높다는 것이 반드시 해당 논문의 중요성이나 혁신성을 보장하는 것은 아닙니다”라며 논문 인용 문화의 복잡성과 한계를 지적하기도 했습니다.

결국, 과학 논문 인용은 연구의 질적 수준이나 유명세보다 실제로 연구자들이 연구 현장에서 얼마나 필요로 하고 자주 활용하는가에 따라 결정되는 측면이 큽니다. 따라서 앞으로 과학적 성과를 평가할 때는 단순 인용 횟수뿐 아니라 논문의 실제적 영향력과 연구 현장 기여도를 함께 고려해야 할 것 같습니다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지