업스테이지, LLM 평가서 오픈AI 넘었다

인공지능(AI) 스타트업 업스테이지가 개발한 생성 AI가 오픈AI의 챗GPT-3.5 성능을 뛰어넘는 성과를 거둔 것으로 나타났다.

1일 업스테이지에 따르면 매개변수(패러미터)가 700억 개 수준인 메타 ‘라마-2’를 파인튜닝(미세조정)한 업스테이지 자체 모델이 머신러닝 플랫폼 ‘허깅페이스’에서 운영하는 오픈 거대언어모델(LLM) 리더보드에서 72.3점으로 1위를 차지했다.

회사는 미국 스태빌리티AI ‘스테이블 벨루가2’(71.4점)를 제친 것은 물론, 허깅페이스 리더보드에서 챗GPT의 기반이 되는 GPT-3.5 벤치마크 점수(71.9점)를 넘긴 첫 사례라고 소개했다.

허깅페이스 오픈 거대언어모델 리더보드는 매개변수 1000억 개 이하인 거대언어모델들의 추론, 상식 능력, 언어이해 종합능력, 환각 현상(할루시네이션) 방지 등 네 가지 지표를 평가한 뒤 점수를 평균 내 순위를 결정한다.

앞서 업스테이지는 지난달에도 매개변수 300억 개를 가진 자체 모델이 허깅페이스 리더보드에서 평균 67점을 얻어, 같은 날 발표된 메타의 ‘라마-2’를 넘어 국내 거대언어모델 처음으로 1위를 기록했다.

김성훈 업스테이지 대표는 "압도적인 기술력을 바탕으로 (기업 내부 서버에 설치·운영할 수 있고 정보 유출을 막을 수 있는) ‘프라이빗 AI’ 시장 지배력 강화에 박차를 가하겠다"고 말했다.

이예린 기자

문화일보