업스테이지, 노코드 LLM 평가 플랫폼 오픈소스 공개

팽동현 2024. 4. 3. 18:35
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

업스테이지는 자사가 개발한 노코드 LLM(대규모언어모델) 종합 평가 플랫폼 '이벨버스(Evalverse)'를 무료로 공개한다고 3일 밝혔다.

업스테이지는 이런 주요 벤치마크를 한 군데 통합, 언어모델 성능을 종합적으로 테스트할 수 있는 자체 평가 플랫폼을 개발했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

이벨버스 시연 예시. 업스테이지 제공

업스테이지는 자사가 개발한 노코드 LLM(대규모언어모델) 종합 평가 플랫폼 '이벨버스(Evalverse)'를 무료로 공개한다고 3일 밝혔다. 오픈소스 형태로 깃허브에 공개돼 누구나 활용할 수 있다.

통상 LLM 성능 평가에는 특정 데이터셋을 기준으로 응답 정확도를 기록한 '벤치마크' 지표를 활용한다. 모델의 추론, 상식, 언어 이해 능력 등 6가지 부문을 측정하는 허깅페이스 'H6' 지표를 포함, 대화 능력 지표 'MT-bench', 감성 평가 지표 'EQ-bench', 및 지시 이행 능력 지표 'IFEval' 등이 주요 벤치마크로 꼽힌다.

업스테이지는 이런 주요 벤치마크를 한 군데 통합, 언어모델 성능을 종합적으로 테스트할 수 있는 자체 평가 플랫폼을 개발했다. 기존에는 특정 벤치마크를 테스트하려면 해당 플랫폼에 모델을 제출해야하는 번거로움이 있었지만, 이벨버스를 활용하면 여러 벤치마크 테스트를 동시에 진행할 수 있다는 게 회사의 설명이다.

업스테이지 이벨버스는 업무용 메신저 '슬랙'에 API(응용프로그램인터페이스) 챗봇 형태로 연동해 사용성을 확대했다. 슬랙 안에서 이벨버스 챗봇과 1:1 대화(DM)를 통해 모든 평가 과정을 간소화한 게 특징이다. 이용자들은 "호출", "평가" 등 2개 명령어만 채팅창에 입력하면 바로 원하는 모델을 호출해 테스트할 수 있으며, 벤치마크별 점수에 대한 종합 리포트를 확인할 수 있어 모델 간 비교 평가도 용이하다.

김성훈 업스테이지 대표는 "누구나 자신이 개발한 LLM을 쉽게 테스트해 볼 수 있는 이벨버스 플랫폼을 무료로 공개하게 돼 기쁘다"며 "앞으로 업스테이지는 글로벌 생성형AI 시장의 선두주자로서 LLM 생태계 발전과 확산을 위해 다양한 노력을 지속해나갈 것"이라고 말했다.팽동현기자 dhp@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?