“박사급이라면서 왜 이렇게 답답하죠?”···AI 성능 측정, 이젠 ‘일머리’도 따진다 [경제밥도둑]

김세훈 기자 2026. 5. 27. 07:01
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

샘 올트먼 오픈AI 최고경영자(CEO)가 지난해 10월 6일(현지시간) 미국 캘리포니아주 샌프란시스코에서 열린 연례 개발자 콘퍼런스 ‘오픈AI 데브데이’에서 연설하고 있다. AFP연합뉴스

“현실 업무를 위한 새로운 유형의 지능.”

오픈AI는 지난달 새로운 프론티어 모델인 GPT-5.5를 공개하며 이렇게 소개했다. GPT-5.5는 경쟁사인 앤트로픽의 오퍼스 4.7보다 복잡한 에이전트 코딩·전문 업무·컴퓨터 조작 등에서 더 높은 점수를 기록했다. 다만 초고난도 지식 해결, 과학 추론 등에서는 오퍼스 4.7의 점수가 더 높았다.

오픈AI는 “지금까지 나온 자사 모델 중 가장 똑똑하고 직관적으로 쓸 수 있는 모델”이라며 “사용자가 하려는 일을 더 빨리 이해하고 더 많은 작업을 스스로 해낼 수 있다”고 말했다.

구글도 지난 19일 새 경량 모델인 제미나이 3.5 플래시를 내놓으면서 “(기존 프론티어 모델인) 제미나이 3.1 프로보다 주요 코딩·에이전트 벤치마크에서 앞섰다”면서 “속도 면에서는 타사 프론티어 모델보다 4배 빠르다”고 내세웠다.

생성형AI 새 모델이 나올 때마다 AI의 사고·추론 성능 못지 않게 이 능력을 계량적으로 평가하는 ‘벤치마크’ 점수에 눈길이 쏠린다. 회사의 이전 모델은 물론 경쟁사의 벤치마크 점수를 뛰어넘느냐가 사용자들의 평가 기준이 되기 때문이다.

1~2년새 AI의 평가 점수는 크게 개선됐지만 이를 평가하는 벤치마크에 대한 회의론도 덩달아 커지고 있다. 시험 문제 맞히기식 평가가 AI의 실제 업무수행 능력을 보여주지 못한다는 것이다. 최근에는 엔지니어링 도면을 그리거나, 법률문서를 작성하는 등 단순한 ‘문제 풀기’를 넘어 실제 AI의 ‘일머리’를 측정하는 방법론이 주목받고 있다.

시험은 인간 박사보다 잘 보는데
조시 우드워드 구글 랩스 및 제미나이 부사장이 2026년 5월 19일 화요일 미국 캘리포니아주 마운틴뷰에서 열린 구글 I/O 행사에서 제미나이 스파크에 대해 설명하고 있다. 연합뉴스

26일 IT업계에 따르면 현재 AI의 성능을 측정하는 벤치마크 수는 400개가 넘는다. 상당수는 AI가 답이 있는 문제에서 답을 맞히는지 측정하는 ‘시험 풀이형’이다. 직접 짠 컴퓨터 코드를 평가하는 등 특정 영역에 특화된 벤치마크도 여럿 생겼다.

벤치마크 결과만 놓고 보면, AI의 성능 향상 속도는 눈부실 정도다. AI의 코딩 능력을 측정하는 대표 벤치마크인 SWE-벤치 베리파이드(SWE-bench Verified)의 문제해결률은 주요 생성형AI의 경우 2024년 8월 30%대 수준에서 최근 80%대로 뛰었다. 전문지식 수준을 평가하는 GPQA 다이아몬드 점수는 현재 94% 수준을 기록하고 있다. GPQA 다이아몬드는 생물학·물리학 등 과학 분야의 박사급 전문가가 만든 객관식 문제로 구성된 시험이다.

광범위한 분야의 전문지식을 측정하는 인류의 마지막 시험(Humanity’s Last Exam)은 지난해 초까지만 해도 정답률이 한 자릿수대에 머물렀으나 현재는 46.9%(클로드 오퍼스 4.7)로 상승했다.

문제는 이런 AI 성능 향상이 실제 이용자의 체감과는 다소 괴리가 있다는 점이다. 사용자의 의도를 이해하지 못하고 엉뚱한 답변을 내놓거나, ‘그럴듯한’ 답변이 실제로는 오류가 있어 오히려 검토에 시간이 더 들어갔다는 불만도 나온다.

20대 직장인 A씨는 “지난해 말부터 몇 번 주요 AI를 썼는데 정리를 잘해주는 듯하다가도 중간에 확인하면 잘못된 내용들이 들어가 있다”면서 “몇 번 그러다 보니 오히려 확인하는 데 시간을 더 쓰게 되는 경우가 적지 않아 업무에는 제한적으로만 쓰고 있다”고 말했다.

미국 소프트웨어 기업 하네스가 이달 공개한 개발자 대상 설문조사에 따르면 응답자들은 AI 덕분에 코드 생성 속도는 빨라졌지만 코드 검토와 같은 ‘보이지 않는’ 업무량도 크게 늘었다고 답했다. 이들은 업무시간의 31%를 코드 정확성을 검토하거나, 버그를 수정하는 데 쓰는 것으로 조사됐다. 수치로 나타나는 AI의 성능 향상과 달리, AI로 인한 생산성 향상 효과가 생각보다 크지 않을 수 있다는 뜻이다.

기초 상식 실수···AI도 ‘일머리’ 따진다
앤트로픽의 클로드 코드 책임자 보리스 체르니가 지난 6일 수요일 미국 샌프란시스코에서 열린 ‘코드 위드 클로드’ 개발자 콘퍼런스 무대에서 발표하고 있다. 연합뉴스

올해 들어서는 AI의 기초적인 실수를 희화화하는 테스트도 유행했다. AI 성능비교업체 더 포커스AI는 지난 2월 세차를 위해 50m 떨어진 세차장에 갈 때 걸어갈지, 차를 타고 갈지 물었을 때 131개 AI 모델 중 31개 모델만 정답인 ‘차를 타고 가라’고 답했다고 밝혔다. 박사급 문제도 푸는 AI 모델이 정작 상식적인 문제는 해결하지 못한 셈이다.

‘알파고의 아버지’로 불리는 데미스 허사비스 구글 딥마인드 최고경영자(CEO)도 지난 2월 인도 AI서밋에서 “(현재 AI 시스템은) 과제 간 일관성이 부족하다”면서 “수학 올림피아드 금메달급 성과를 내면서도 초등 수학에서 실수할 수 있다”고 말했다.

이렇다 보니 기존 벤치마크의 실효성에 의문을 품는 이들도 늘고 있다. 객관식 문항 맞추기에 초점이 맞춰진 벤치마크 특성상 일상생활의 업무 수행 능력을 제대로 평가하기 어렵다는 것이다.

무엇을 측정하는지 모호한 벤치마크가 난립하고 있다는 점도 문제로 꼽힌다. 벤치마크가 측정하는 추론능력·안전성·문제 해결능력 등의 정의가 불분명하다는 것이다. 옥스퍼드대 인터넷 연구소 등에 따르면 시중의 445개의 AI 벤치마크 중 통계적 검증 등을 거친 측정 방식을 사용한 벤치마크는 16%에 그쳤다.

이 때문에 최근에는 시험문제 풀이가 아닌 실제 업무 수행 능력을 보는 ‘실전형’ 벤치마크가 확대되는 추세다. 처음보는 문제에 적응하는지, 여러 단계에 걸쳐 있는 복잡한 작업을 인간 개입없이 끝까지 해내는지 등을 측정하는 것이다. 오픈AI가 공개한 자체 벤치마크인 GDPval은 법률 문서나 엔지니어링 도면 같은 실제 업무 산출물을 얼마나 잘 만드는지를 점수로 매긴다. AI가 실제로 경제적 가치를 창출할 수 있는지를 본다는 취지다.

실제 프리랜서 소프트웨어 개발 과제 수행을 평가하는 경우(SWE-Lancer), 여러 앱을 오가며 주요 직군별 업무과제를 수행하는 능력을 평가하는 경우(윈도우즈월드)도 있다.

이병권 경희대 빅데이터응용학과 교수는 “벤치마크 점수가 높다고 성능이 좋다고 볼 수는 없다. 일정 수준 이상이 되면 점수와 소비자 만족도 간 연관성도 낮아진다”면서 “단순히 시험 문제 풀이가 아니라 이용자의 실제 사용 패턴에 얼마나 적합하게 반응하느냐가 (AI 성능의) 척도가 될 것”이라고 말했다.

김세훈 기자 ksh3712@kyunghyang.com

Copyright © 경향신문. 무단전재 및 재배포 금지.