AI가 기출문제 외웠는지, 추론했는지 안다… 평가 기술도 진화
치열한 인공지능(AI) 모델 경쟁 한편에선 이들의 성능을 평가하는 방법(벤치마크)들도 속속 나오고 있다. AI 모델 수가 빠르게 늘다 보니 어떤 모델이 더 적합하고 좋은지 선택해야 하는 기업이나 개인 이용자들이 AI 벤치마크를 찾는다.
미국 기업 ‘스케일AI’ 연구진은 지난 3일 거대언어모델(LLM)의 수학적 능력을 평가하는 벤치마크를 공개했다. 이 회사는 초등학교 수준 수학 문제를 LLM에 풀게 했다. 이미 정답을 학습시킨 문제를 잘 푸는 LLM이 있는가 하면, 새로운 유형의 문제도 이미 학습한 문제로 추론해 정답을 내는 LLM도 있었다. 이 방식을 적용하자 오픈AI의 ‘GPT-4′와 구글의 ‘제미나이 프로’는 추론 능력이 뛰어났다. 반면 프랑스 인공지능(AI) 스타트업 미스트랄의 AI는 상대적으로 추론 능력이 떨어지는 것으로 나왔다.
AI 모델의 성능이 좋아질수록 이를 평가하는 벤치마크도 발전하고 있다. 학생들이 기출 문제를 외워서 높은 점수를 받듯이, 일부 AI 모델이 기존 벤치마크의 평가 방식을 학습해 좋은 평가를 받는 경우가 발생한다. 이를 앞세워 자사 AI 모델의 우수성을 홍보하기도 한다. 테크업계 관계자는 “일부 스타트업은 AI 모델을 개발하면서 특정 벤치마크를 집중 학습시킨 후에, 그 평가 결과를 공개하기도 한다”고 말했다.
AI 모델의 개발 속도를 따라잡기 위해 AI 기업들이 직접 벤치마크를 개발하는 경우가 많다. 구글 딥마인드는 지난달 29일 이미지 생성 AI 모델의 성능을 평가하기 위한 벤치마크를 공개했다. 최근에는 페이스북의 모회사인 메타, 테슬라의 일론 머스크 CEO가 세운 스타트업 ‘xAI’도 자체 개발한 LLM용 벤치마크 데이터를 공개했다.
Copyright © 조선일보. 무단전재 및 재배포 금지.
- 경북 영천서 아프리카돼지열병 발생
- 韓총리 “환자들이 ‘집단행동 다시는 없게 원칙 세워 달라’ 호소”
- HD현대오일뱅크, 국내 첫 지속가능항공유 수출
- 대통령실 “종부세 사실상 폐지하고, 상속세는 30%로 인하 필요”
- 배우 송다은 “버닝썬 루머 사실 아냐, 한 달 일하고 관뒀다”
- SK이노 후원 ‘발달장애인 음악축제’ 헝가리서 개최…유럽 첫 공연
- 또 대형차 우회전 교통사고...수원서 덤프트럭에 치여 80대 보행자 숨져
- 주취자응급센터서 14분 난동부린 50대…벌금 300만원
- “내 개 치었지” 가해자 업소 앞에 개 묶어 영업방해한 50대 2심도 벌금 100만원
- 음주 사고에 경찰 폭행까지 한 30대 ‘법정 구속’