업스테이지 “자체 개발 AI모델 성능 챗GPT 제쳤다”

700억 매개변수 구성 경량 모델로
허깅페이스 오픈LLM 리더보드 1위
“기업용 AI 시장 공략 목표”

업스테이지가 개발한 생성 AI 모델이 허깅페이스 오픈 LLM 리더보드 순위에서 1위를 차지했다. [사진=업스테이지]

국내 인공지능(AI) 스타트업이 개발한 생성 AI 모델이 오픈AI의 챗GPT보다 성능이 뛰어나다는 평가가 나왔다.

업스테이지는 회사가 개발한 생성 AI 모델이 세계 최대 머신러닝 플랫폼 허깅페이스가 운영하는 ‘오픈 LLM(거대언어모델) 리더보드’ 평가 점수에서 72.3점을 획득해 1위를 차지했다고 1일 밝혔다. 챗GPT의 기반 모델인 GPT-3.5 성능도 뛰어넘었다는 설명이다.

허깅페이스 오픈 LLM 리더보드는 오픈소스 생성 AI 모델의 바로미터로 꼽힌다. 전 세계 500여개 오픈 모델이 추론과 상식 능력, 언어 이해 종합능력, 환각 현상 방지를 비롯한 4가지 지표의 평균 점수로 경쟁한다.

앞서 지난달 업스테이지가 허깅페이스에 공개한 300억개 매개변수 모델은 평균 67점을 획득한 바 있다. 같은날 발표된 메타의 ‘라마(LLaMA 2)’ (700억개) 모델을 제쳤다. 이후 업스테이지는 더 많은 데이터로 최신 라마2(700억개) 매개변수 기반으로 미세조정(파인튜닝)한 모델을 내놨다. 그 결과로 새롭게 공개된 700억개 매개변수 모델이 리더보드 평가에서 72.3점을 기록하게 됐다. 미국 스테빌리티 AI의 ‘스테이블 벨루가2’ 모델(71.4점)도 뛰어넘은 기록이다.

특히 챗GPT 기반 모델인 GPT-3.5의 벤치마크 평가(71.9점)도 뛰어넘었다는 점이 눈길을 끈다. 업스테이지 관계자는 “허깅페이스 리더보드 기준 GPT-3.5의 점수를 능가한 사례는 업스테이지가 처음”이라며 “토종 스타트업이 개발한 소형 LLM이 글로벌 빅테크 기업의 초거대 모델과 견줘도 충분한 경쟁력이 있음을 증명했다”고 말했다.

업스테이지는 AI 올림픽으로 불리는 ‘캐글’ 경진대회와 국제 학회 논문상을 휩쓴 인력을 투입해 두달여만에 GPT-3.5를 상회하는 모델을 개발했다. 향후 이 모델을 상용화해 본격적인 ‘프라이빗 AI’ 시장 개척에 나선다는 목표다. 프라이빗 AI는 기업 내부 데이터만 학습해 정보 유출을 막고 환각 현상을 방지하는 데 특화한 솔루션이다.

매일경제

IT/과학

업스테이지 “자체 개발 AI모델 성능 챗GPT 제쳤다”