제미나이 1위·지피티 2위?...인공지능 ‘등수’는 어떻게 매기는 걸까

(☞한겨레 뉴스레터 H:730 구독하기. 검색창에 ‘한겨레 h730’을 쳐보세요.)

제미나이3, 지피티(GPT)5.2 등 인공지능 성능 경쟁이 갈수록 치열해지는 가운데, 인공지능의 ‘똑똑한 정도’를 어떻게 평가하는지에 대한 관심도 높아지고 있다. 추론·수리·개발 등 인간의 기능에 필적하는 종합적인 역량을 평가해야 하기 때문에, 이를 객관적으로 수치화할 수 있는 다양한 ‘벤치마크’ 성능 평가가 마련돼 있는 상황이다.

사용자의 직접 평가를 반영하는 벤치마크는 ‘엘엠아레나’(LMArena)가 있다. 엘엠아레나는 말 그대로 언어모델(Language Model)들의 경기장(Arena)이다. 사용자는 기존 인공지능 서비스를 사용할 때처럼 질문을 던진 뒤 익명의 인공지능으로부터 두개의 답변을 받아본다. 둘 중 훌륭한 답변 하나를 고르거나, 무승부를 선언하거나, 둘 다 별로라고 판단할 수도 있다. 이렇게 사용자가 내린 평가를 모아 순위를 매기는 방식이다. 엘엠아레나의 순위표(리더보드)에 가면 ‘텍스트’, ‘개발’, ‘이미지 수정’ 등 영역별로 인공지능의 순위를 볼 수 있다. 12월14일 기준으로 웹 개발을 제외한 대부분의 영역에서 구글의 제미나이3 프로가 1등을 차지하고 있다.

최근 많이 사용되는 벤치마크는 ‘인류의 마지막 시험’(HLE)이다. 인류의 마지막 시험은 기존 벤치마크에서 인공지능들이 90% 이상의 정확도를 달성함에 따라 ‘아주 어려운 문제를 풀게 해보자’는 취지로 만들어졌다. 수학, 물리학 등 100개 이상의 과목에서 교수나 연구자들이 제공한 2500개의 문제를 풀도록 한다. 제미나이3 프로는 이 시험에서 37.52%의 정답률을 보였다. 지피티5.2 프로가 기록한 정답률은 34.5%다.

인류의 마지막 시험 예시문제. 왼쪽은 지금은 소멸한 언어인 팔미라어의 번역을 묻는 문제이며, 오른쪽은 벌새의 해부학적 구조에 대한 문제다. 인류의 마지막 시험 누리집 갈무리

자율적으로 작업하는 에이전트 인공지능의 중요성이 부각됨에 따라 주목받는 벤치마크도 있다. 인공지능이 직접 자판기를 운영하고 그 성과를 보는 ‘벤딩 벤치’(Vending-Bench)다. 인공지능이 향후 실제 경제활동에 참여하는 걸 상정한 측정 방식이다. 인공지능이 재고를 관리하고 가격을 책정하는 등의 경제적 활동을 했을 때 얼마나 잘 운영하는지 확인한다. 제미나이3 프로는 초기 자금 500달러로 시작해 1년이 지났을 때 잔고 5478달러를 남겨 1위를 차지했는데, ‘가격이 좋은 공급업체를 찾아내는 능력이 매우 뛰어나다’는 평가를 받았다.

벤딩 벤치에서 인공지능들이 기록한 잔고현황. 벤딩 벤치 소개 페이지 갈무리

이 외에 코딩 오류를 고치는 능력으로 개발 성능을 평가하는 ‘에스더블유이(SWE)벤치’, 수학 올림피아드급 난이도의 문제를 푸는 ‘매스아레나 에이펙스’(MathArena Apex)등도 활용된다.

인공지능 벤치마크는 널리 활용되고 있지만 지나치게 능력 평가에만 매몰됐다는 비판의 목소리도 있다. 유럽연합 집행위원회 산하 공동연구센터(JRC) 연구진은 지난 5월 낸 논문에서 “많은 벤치마크가 윤리나 안전 같은 목표보다는 높은 경제적 보상이 기대되는 과업에만 초점을 맞추고 있다”고 비판했다.

채반석 기자 chaibs@hani.co.kr

IT/과학

제미나이 1위·지피티 2위?...인공지능 ‘등수’는 어떻게 매기는 걸까