AI가 기출문제 외웠는지, 추론했는지 안다… 평가 기술도 진화

변희원 기자 2024. 5. 8. 03:24
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

변형된 수학 문제로 테스트
인공지능(AI) 일러스트. /연합뉴스

치열한 인공지능(AI) 모델 경쟁 한편에선 이들의 성능을 평가하는 방법(벤치마크)들도 속속 나오고 있다. AI 모델 수가 빠르게 늘다 보니 어떤 모델이 더 적합하고 좋은지 선택해야 하는 기업이나 개인 이용자들이 AI 벤치마크를 찾는다.

미국 기업 ‘스케일AI’ 연구진은 지난 3일 거대언어모델(LLM)의 수학적 능력을 평가하는 벤치마크를 공개했다. 이 회사는 초등학교 수준 수학 문제를 LLM에 풀게 했다. 이미 정답을 학습시킨 문제를 잘 푸는 LLM이 있는가 하면, 새로운 유형의 문제도 이미 학습한 문제로 추론해 정답을 내는 LLM도 있었다. 이 방식을 적용하자 오픈AI의 ‘GPT-4′와 구글의 ‘제미나이 프로’는 추론 능력이 뛰어났다. 반면 프랑스 인공지능(AI) 스타트업 미스트랄의 AI는 상대적으로 추론 능력이 떨어지는 것으로 나왔다.

AI 모델의 성능이 좋아질수록 이를 평가하는 벤치마크도 발전하고 있다. 학생들이 기출 문제를 외워서 높은 점수를 받듯이, 일부 AI 모델이 기존 벤치마크의 평가 방식을 학습해 좋은 평가를 받는 경우가 발생한다. 이를 앞세워 자사 AI 모델의 우수성을 홍보하기도 한다. 테크업계 관계자는 “일부 스타트업은 AI 모델을 개발하면서 특정 벤치마크를 집중 학습시킨 후에, 그 평가 결과를 공개하기도 한다”고 말했다.

AI 모델의 개발 속도를 따라잡기 위해 AI 기업들이 직접 벤치마크를 개발하는 경우가 많다. 구글 딥마인드는 지난달 29일 이미지 생성 AI 모델의 성능을 평가하기 위한 벤치마크를 공개했다. 최근에는 페이스북의 모회사인 메타, 테슬라의 일론 머스크 CEO가 세운 스타트업 ‘xAI’도 자체 개발한 LLM용 벤치마크 데이터를 공개했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?