복잡한 과학 연구에선 과학자 못따라잡는 AI

美 스탠퍼드대 '인공지능 인덱스 보고서 2026' 공개

AI 활용이 과학계 전반으로 빠르게 확산되고 있지만 연구 규범이 이를 따라가지 못하고 있다는 우려가 커지고 있다. 게티이미지뱅크 제공

복잡한 과학 연구에서 인간 과학자가 최고 성능의 인공지능(AI) 에이전트를 압도한다는 보고서가 나왔다. 과학계의 AI 활용은 폭발적으로 늘고 있지만 실제 과학 연구 성능은 기대에 못 미친다는 것이다. 과학계에서 AI 활용에 관한 원칙을 진중하게 논의할 시간도 없이 AI가 너무 빠르게 확산되고 있다는 우려도 제기됐다.

미국 스탠퍼드대 인간중심AI연구소는 13일(현지시간) 이같은 내용을 담은 '인공지능 인덱스 보고서 2026'을 발표했다.

최근 과학계에서는 AI를 가설 생성과 발견에까지 활용하려는 시도가 늘고 있다. 올해에는 천문학 분야 최초의 과학 특화 AI 모델(AION-1)이 등장해 2억 개 이상의 천체 데이터로 훈련된 뒤 은하 분류와 특성 추정에 활용됐다.

AI가 생성한 인터넷 콘텐츠가 인간이 작성한 콘텐츠를 지난해 처음으로 앞질렀다. AI가 단독으로 작성한 논문이 동료 심사를 통과한 사례도 처음 나왔다.

보고서에 따르면 생명·물리·지구과학 등 자연과학 분야에서 AI를 언급한 논문·사전공개 논문 등 출판물은 2025년 8만 건을 넘어 2024년보다 26% 증가했다. 2010년과 비교하면 약 30배에 달하는 수치다. 분야별로는 물리학 분야 출판물이 3만 3000건으로 가장 많았고 지구과학 분야의 경우 전체 논문 중 AI 언급 비율이 9%로 가장 높았다.

AI를 언급한 자연과학 분야 논문·사전공개 논문 수의 변화. 2015년 이후 급격히 증가해 2025년에는 8만 건을 넘어섰다. 스탠퍼드 인공지능 인덱스 보고서 2026 제공

올해 보고서는 특히 AI 에이전트의 성능을 집중 평가했다. AI 에이전트는 연구 워크플로 같은 복잡한 작업을 스스로 수행하는 시스템이다. 연구 논문을 분석해 답을 도출하는 능력을 측정하는 '페이퍼아레나' 벤치마크에서 최고 성능의 AI 에이전트도 정확도 39%에 그쳐 박사급 인간 전문가의 절반 수준에 불과했다.

보고서를 이끈 요란다 길 미국 서던캘리포니아대 컴퓨터과학자는 "에이전트는 훌륭하지만 효과적으로 활용하는 방법을 이해하기까지는 아직 갈 길이 멀다"고 밝혔다.

AI 모델의 전반적인 성능은 빠르게 향상되고 있지만 기본적인 오류도 여전하다. 최고 수준의 AI 모델도 아날로그 시계를 50%의 확률로 잘못 읽는 것으로 나타났다.

구글 딥마인드의 동영상 생성 모델 Veo 3는 별도의 훈련 없이도 부력 같은 물리 현상을 재현하는 데 성공해 주목받았지만 AI가 물리 법칙을 진정으로 이해하는 수준에는 아직 이르지 못했다는 평가다.

연구자들의 AI 활용이 폭발적으로 늘고 있지만 실질적인 생산성 향상으로 이어지는지는 불분명하다. 아르빈드 나라야난 미국 프린스턴대 컴퓨터과학 연구원은 "AI 활용의 폭발적인 성장이 의미있는지에 대한 논쟁이 뜨겁다"며 "과학 규범이 적응할 시간도 없이 너무 빠르게 진행되고 있어 연구 질이 떨어지고 있다"고 밝혔다.

길 연구원도 AI가 연구자 생산성을 향상시킨다는 증거가 아직 충분하지 않다고 인정하면서도 "AI를 없애버리면 난리가 날 것"이라며 연구자들의 높은 의존도를 짐작케 했다.

[임정우 기자 jjwl@donga.com]

동아사이언스

IT/과학

복잡한 과학 연구에선 과학자 못따라잡는 AI