가장 까다로운 AI 벤치마크 만든다…‘인류의 마지막 시험’ 시작
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
이달 오픈AI가 새롭게 내놓은 인공지능(AI) 모델인 '오픈AI o1'는 물리학, 생물학, 화학 등의 벤치마크에서 박사과정 학생 수준의 성능을 뽐냈다.
이처럼 AI 모델이 기존 벤치마크들을 모두 뛰어넘으며 빠르게 발전하면서, 이를 평가하는 벤치마크 또한 수준을 높이려는 움직임이 나타나고 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
美 AI 안전 센터·스케일AI 협업
이처럼 AI 모델이 기존 벤치마크들을 모두 뛰어넘으며 빠르게 발전하면서, 이를 평가하는 벤치마크 또한 수준을 높이려는 움직임이 나타나고 있다.
24일 정보기술(IT) 업계에 따르면 미국의 비영리 AI 단체인 AI 안전 센터(CAIS)와 스타트업인 스케일AI는 ‘인류의 마지막 시험’이라는 프로젝트를 시작했다. 스케일AI는 AI 학습 데이터 라벨링을 제공하는 기업으로, 기업 가치 100억달러 이상의 비상장 스타트업을 일컫는 ‘데카콘’이다.
해당 프로젝트는 다양한 전문 영역에서 AI가 해결하기에 까다로운 문제들만을 모아 가장 어려운 새로운 벤치마크를 만드는 것을 목표로 한다.
알렉산더 왕 스케일AI CEO는 “거대언어모델(LLM)이 똑똑해질수록, 평가 또한 어려워져야 한다”라고 이번 프로젝트에 대해 설명했다.
양측은 이번 벤치마크 개발을 위해 각 분야 전문가들로부터 벤치마크에 포함될 질문 제안을 받고, 채택된 질문들에 대해 총 50만달러(약6억7000만원) 상당의 상금을 지급할 예정이다.
현존하는 벤치마크보다 고난이도의 벤치마크가 필요한 것은 이제는 기존 벤치마크들이 새롭게 등장하는 AI 모델의 발전 속도를 평가하는 것에 한계가 있기 때문이다.
한편 AI의 안전성 등을 평가하기 위한 벤치마크 고도화도 이루어지고 있다. 앤스로픽의 경우 AI 모델의 성능과 안전 수준을 평가를 강화하기 위해 지난 7월 새로운 벤치마크를 개발하는 제3자 생태계에 자금을 지원하는 이니셔티브를 시작한 바 있다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “기억 못해 미안했다”…20년 전 장나라 노래할 때 드럼 치는 남성 ‘깜짝’ - 매일경제
- “아웃렛에 옷 사러 갔다가 울었다”…60% 할인한다는 가게, 가격표 보고 입이 ‘쩍’ - 매일경제
- 오늘의 운세 2024년 9월 25일 水(음력 8월 23일) - 매일경제
- 몸짱되고 알츠하이머도 예방하고…‘이것’ 많이 먹어야 한다는데 - 매일경제
- 빽다방 음료 마시고 복통 호소한 10대 아이들…음료속 조사해보니 ‘맙소사’ - 매일경제
- 손흥민 때리던 英언론, 완전 돌아섰다…“그가 떠나면 하늘에 행운 비는 수밖에” - 매일경제
- 얼마나 많이 가길래…올 겨울 대한항공이 항공편 확 늘린다는 이 곳 - 매일경제
- 이러니 욕먹지…콘서트 축구로 90억 넘게 번 월드컵경기장, 잔디 관리는 ‘고작’ - 매일경제
- 성상납 안하는 조건으로 계약했더니…전 소속사 대표가 길건에게 시킨 일 - 매일경제
- 손흥민·김민재·이강인 국가대표 선수들, 국회 현안 질의 보고서도 정몽규·홍명보 응원 부탁할