가장 까다로운 AI 벤치마크 만든다…‘인류의 마지막 시험’ 시작

정호준 기자(jeong.hojun@mk.co.kr) 2024. 9. 25. 09:18
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

이달 오픈AI가 새롭게 내놓은 인공지능(AI) 모델인 '오픈AI o1'는 물리학, 생물학, 화학 등의 벤치마크에서 박사과정 학생 수준의 성능을 뽐냈다.

이처럼 AI 모델이 기존 벤치마크들을 모두 뛰어넘으며 빠르게 발전하면서, 이를 평가하는 벤치마크 또한 수준을 높이려는 움직임이 나타나고 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

“언어모델 똑똑해질수록 평가도 어려워져야”
美 AI 안전 센터·스케일AI 협업
스케일AI와 AI 안전 센터(CAIS) 로고 [사진 = 스케일AI]
이달 오픈AI가 새롭게 내놓은 인공지능(AI) 모델인 ‘오픈AI o1’는 물리학, 생물학, 화학 등의 벤치마크에서 박사과정 학생 수준의 성능을 뽐냈다.

이처럼 AI 모델이 기존 벤치마크들을 모두 뛰어넘으며 빠르게 발전하면서, 이를 평가하는 벤치마크 또한 수준을 높이려는 움직임이 나타나고 있다.

24일 정보기술(IT) 업계에 따르면 미국의 비영리 AI 단체인 AI 안전 센터(CAIS)와 스타트업인 스케일AI는 ‘인류의 마지막 시험’이라는 프로젝트를 시작했다. 스케일AI는 AI 학습 데이터 라벨링을 제공하는 기업으로, 기업 가치 100억달러 이상의 비상장 스타트업을 일컫는 ‘데카콘’이다.

해당 프로젝트는 다양한 전문 영역에서 AI가 해결하기에 까다로운 문제들만을 모아 가장 어려운 새로운 벤치마크를 만드는 것을 목표로 한다.

알렉산더 왕 스케일AI CEO는 “거대언어모델(LLM)이 똑똑해질수록, 평가 또한 어려워져야 한다”라고 이번 프로젝트에 대해 설명했다.

양측은 이번 벤치마크 개발을 위해 각 분야 전문가들로부터 벤치마크에 포함될 질문 제안을 받고, 채택된 질문들에 대해 총 50만달러(약6억7000만원) 상당의 상금을 지급할 예정이다.

현존하는 벤치마크보다 고난이도의 벤치마크가 필요한 것은 이제는 기존 벤치마크들이 새롭게 등장하는 AI 모델의 발전 속도를 평가하는 것에 한계가 있기 때문이다.

오픈AI o1 모델의 주요 벤치마크 지표 [출처 = 오픈AI]
AI 안전 센터도 “오픈AI의 최신 모델은 MMLU를 포함해 가장 널리 쓰이는 모든 벤치마크에서 최고 수준의 성능을 보였다”며 인류는 AI 시스템의 성능을 잘 이해해야 하지만 기존 테스트는 너무 쉬워져서 AI 발전 속도를 제대로 추적할 수 없다고 분석했다.

한편 AI의 안전성 등을 평가하기 위한 벤치마크 고도화도 이루어지고 있다. 앤스로픽의 경우 AI 모델의 성능과 안전 수준을 평가를 강화하기 위해 지난 7월 새로운 벤치마크를 개발하는 제3자 생태계에 자금을 지원하는 이니셔티브를 시작한 바 있다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?