업스테이지, 노코드 LLM 평가 플랫폼 오픈소스 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
업스테이지는 자사가 개발한 노코드 LLM(대규모언어모델) 종합 평가 플랫폼 '이벨버스(Evalverse)'를 무료로 공개한다고 3일 밝혔다.
업스테이지는 이런 주요 벤치마크를 한 군데 통합, 언어모델 성능을 종합적으로 테스트할 수 있는 자체 평가 플랫폼을 개발했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
업스테이지는 자사가 개발한 노코드 LLM(대규모언어모델) 종합 평가 플랫폼 '이벨버스(Evalverse)'를 무료로 공개한다고 3일 밝혔다. 오픈소스 형태로 깃허브에 공개돼 누구나 활용할 수 있다.
통상 LLM 성능 평가에는 특정 데이터셋을 기준으로 응답 정확도를 기록한 '벤치마크' 지표를 활용한다. 모델의 추론, 상식, 언어 이해 능력 등 6가지 부문을 측정하는 허깅페이스 'H6' 지표를 포함, 대화 능력 지표 'MT-bench', 감성 평가 지표 'EQ-bench', 및 지시 이행 능력 지표 'IFEval' 등이 주요 벤치마크로 꼽힌다.
업스테이지는 이런 주요 벤치마크를 한 군데 통합, 언어모델 성능을 종합적으로 테스트할 수 있는 자체 평가 플랫폼을 개발했다. 기존에는 특정 벤치마크를 테스트하려면 해당 플랫폼에 모델을 제출해야하는 번거로움이 있었지만, 이벨버스를 활용하면 여러 벤치마크 테스트를 동시에 진행할 수 있다는 게 회사의 설명이다.
업스테이지 이벨버스는 업무용 메신저 '슬랙'에 API(응용프로그램인터페이스) 챗봇 형태로 연동해 사용성을 확대했다. 슬랙 안에서 이벨버스 챗봇과 1:1 대화(DM)를 통해 모든 평가 과정을 간소화한 게 특징이다. 이용자들은 "호출", "평가" 등 2개 명령어만 채팅창에 입력하면 바로 원하는 모델을 호출해 테스트할 수 있으며, 벤치마크별 점수에 대한 종합 리포트를 확인할 수 있어 모델 간 비교 평가도 용이하다.
김성훈 업스테이지 대표는 "누구나 자신이 개발한 LLM을 쉽게 테스트해 볼 수 있는 이벨버스 플랫폼을 무료로 공개하게 돼 기쁘다"며 "앞으로 업스테이지는 글로벌 생성형AI 시장의 선두주자로서 LLM 생태계 발전과 확산을 위해 다양한 노력을 지속해나갈 것"이라고 말했다.팽동현기자 dhp@dt.co.kr
Copyright © 디지털타임스. 무단전재 및 재배포 금지.
- 차 트렁크에 생후 10일 아기 방치하고 시신 유기한 30대 엄마…"죄송하다"
- `막돼먹은 영애씨` 영애父 배우 송민형 별세…향년 70세
- "이웃이 악마"…엘리베이터서 20대女 강간하려한 남성
- 일본인 아내가 차려준 父 제사상…"한국말도 못하는데 너무 울컥해"
- "청소년들 따라할까 무섭다"…무인포토 부스서 속옷 노출한 아이돌 누구길래
- 또 `망신살` 여론조사… `샤이 트럼프` 많았다
- ‘AI 협력’ 해법 제시한 최태원…‘SK AI 서밋’에 국내외 3만명 몰렸다
- 정희권 특구재단 이사장 "과학기술 기반 딥테크 유니콘 만들 것"
- 신통찮은 은행 비이자수익…혁신 `기로`
- 뿌리中企 "경기 어려운데, 산업 전기만 인상…계절·시간대별 요금조정 절실"