업스테이지·콴다·KT, 챗GPT 넘는 수학 특화 모델 개발
AI 스타트업 업스테이지는 학습 플랫폼 ‘콴다’를 운영하는 매스프레소, KT와 공동 개발한 수학 특화 언어모델 ‘매스 GPT’가 수학 능력을 평가하는 언어모델 테스트에서 마이크로소프트의 ‘토라(ToRA) 13B’를 능가하는 성적을 거뒀다고 8일 밝혔다.
지난해 11월 업스테이지와 콴다는 KT와 전략적 파트너십의 일환으로 매스 GPT 개발에 착수했다. 업스테이지는 콴다의 고품질 수학 전문 데이터를 학습해 언어 모델이 논리적 추론과 프로그래밍화를 통해 복잡한 수학 문제를 풀 수 있도록 파인튜닝을 진행했다.
그 결과 130억(13B) 매개변수의 매스GPT는 벤치마크 테스트 평균에서 챗GPT 성능을 넘고, MATH 벤치마크에서는 GPT-4까지 능가했다고 회사는 설명했다.
이들 회사에 따르면 MATH 벤치마크 테스트에서 매스GPT는 1점 만점에 0.488점을 받아 130억 매개변수 이하 모델에서 최고점을 기록했다. GPT-4는 0.425점, 챗GPT는 0.355점, 토라 13B는 0.481점, 토라 7B는 0.401점이었다. GSM8K 테스트에서는 매스GPT가 0.782점을 기록해 토라 13B(0.758점)를 제치고 1위에 올랐다.
1만2500개의 고난도 수학 경시 문제로 구성된 MATH 테스트와 8500개의 초등학교 수학 문제로 산술 연산을 테스트하는 GSM8K 테스트에서 동시에 최고 성능을 달성한 경우는 세계적으로도 보기 드문 성과라고 업스테이지는 소개했다.
김성훈 업스테이지 대표는 “앞으로도 글로벌 1위 거대언어모델(LLM) 기술력을 바탕으로 다양한 영역에서 생성형 AI 혁신을 주도해 나가겠다”고 말했다.
이용재 콴다 대표는 “AI 튜터를 통해 아시아를 넘어 전 세계 학생들의 교육 경험을 혁신하겠다”고 말했다.
김은성 기자 kes@kyunghyang.com
Copyright © 경향신문. 무단전재 및 재배포 금지.
- ‘김문기의 추석 선물’ ‘딸에게 보낸 동영상’···이재명 ‘선거법 위반’ 판결문
- 조국 “민주주의 논쟁에 허위 있을 수도···정치생명 끊을 일인가”
- 최현욱, 키덜트 소품 자랑하다 ‘전라노출’···빛삭했으나 확산
- 트럼프 반대한 ‘반도체 보조금’···바이든 정부, TSMC에 최대 9조2000억원 확정
- [사설] 이재명 선거법 1심 ‘당선 무효형’, 현실이 된 야당의 사법리스크
- 이준석 “대통령이 특정 시장 공천해달라, 서울 어떤 구청장 경쟁력 없다 말해”
- “집주인인데 문 좀···” 원룸 침입해 성폭행 시도한 20대 구속
- 뉴진스 “민희진 미복귀 시 전속계약 해지”…어도어 “내용증명 수령, 지혜롭게 해결 최선”
- 이재명 “희생제물 된 아내···미안하다, 사랑한다”
- ‘거제 교제폭력 사망’ 가해자 징역 12년…유족 “감옥 갔다 와도 30대, 우리 딸은 세상에 없어