“가장 성능 좋은 LLM은 앤트로픽 ‘클로드 3.5 소네트’…구글·메타·알리바바도 성능↑”
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
생성형 인공지능(AI) 평가 방식을 개발하는 미국 스타트업 갈릴레오(Galileo)가 대형언어모델(LLM)들의 환각 지수를 측정한 연구 결과를 내놨다.
갈릴레오가 관련 보고서를 내놓은 것은 작년 11월에 이어 두번째로, 오픈소스 모델 12개와 폐쇄형 모델 10개 등 22개의 LLM을 대상으로 환각 정도를 측정했다.
'가장 성능이 좋은 모델'에는 앤트로픽에 클로드 3.5 소네트가 꼽혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
가장 가성비 좋은 모델은 구글 제미나이 1.5 플래시
알리바바 큐원도 성능 급성장
생성형 인공지능(AI) 평가 방식을 개발하는 미국 스타트업 갈릴레오(Galileo)가 대형언어모델(LLM)들의 환각 지수를 측정한 연구 결과를 내놨다. 이 결과 앤트로픽의 ‘클로드 3.5 소네트’가 최고의 LLM에 선정됐다. 갈릴레오는 비용 대비 최고의 성능, 가장 저렴한 모델 등 LLM을 여러 범주로 나눠 성능 측정을 했는데 오픈AI의 GPT-4o는 단 한 분야에서도 최고를 기록하지 못했다.
1일 갈릴레오는 ‘LLM 환각 지수’라는 보고서를 발표했다. 갈릴레오가 관련 보고서를 내놓은 것은 작년 11월에 이어 두번째로, 오픈소스 모델 12개와 폐쇄형 모델 10개 등 22개의 LLM을 대상으로 환각 정도를 측정했다. 갈릴레오는 “LLM이 주어진 맥락을 얼마나 잘 따르는지 평가해 개발자가 가격과 성능의 균형을 맞추는 데 필요한 정보를 얻을 수 있도록 했다”고 전했다.
그러면서 “지난 보고서 발표 이후 LLM환경이 크게 바뀌었고 , 더 크고 강력한 오픈 소스 또는 폐쇄형 모델이 매달 발표됐다”며 “’환각’이라는 용어가 영어사전 ‘Dictionary.com’이 꼽은 올해의 단어가 되는가 하면, 검색 증강 생성(RAG)이 AI 솔루션을 구축하는 주요 방법 중 하나가 됐다. 매개변수와 컨텍스트 길이가 계속 증가하는 동안 환각의 위험은 여전히 남아 있다”고 덧붙였다.
갈릴레오는 1000~10만개 토큰을 입력해 테스트를 진행했다. ‘가장 성능이 좋은 모델’에는 앤트로픽에 클로드 3.5 소네트가 꼽혔다. 모든 작업에서 뛰어난 성능을 보였으며 추론 및 이해 능력이 탁월한 것으로 평가됐다. 최대 20만 단어를 지원하며 가격은 GPT-4o의 절반 수준이었다. ‘비용 대비 최고의 성능’ 분야는 구글의 ‘제미나이 1.5 플래시’가 선정됐고, ‘가장 우수한 오픈소스 모델’은 알리바바의 ‘큐원2 72B’가 꼽혔다.
짧은 컨텍스트(5000 토큰 이하)와 중간 컨텍스트(5000~2만5000 토큰), 긴 컨텍스트(4만~10만 토큰)로 구분해 테스트한 결과도 각각 공개했다. 짧은 컨텍스트에서는 클로드 3.5 소네트와 메타의 라마3-70b가 각각 폐쇄형 모델, 오픈소스 모델 중 최고의 성능을 보였다. 중간 컨텍스트에서는 제미나이 1.5 플래시, 큐원 1.5-32B가 꼽혔으며, 긴 콘텍스트에서는 클로드 3.5 소네트가 성능이 가장 좋았다.
각각의 실험에서 가장 저렴한 모델은 제미나이 1.5플래시였다. 갈릴레오는 “백만 달러당 프롬프트 토큰 비용은 플래시의 경우 0.35 달러였던 반면 클로드 3.5소네트의 경우 3달러였다”며 “백만 달러당 응답 토큰 비용은 플래시가 1.05달러, 클로드 3.5소네트는 15달러로 훨씬 두드러지게 차이가 났다”고 전했다.
오픈AI는 작년 11월 보고서에서는 전 분야 1위였으나 이번에는 단 한 분야에서도 최고를 기록하지 못했다. 갈릴레오는 이번 벤치마크에 대해 오픈소스 모델의 약진을 가장 큰 특징으로 꼽았다. 갈릴레오는 “폐쇄형 모델이 독점적인 훈련 데이터 덕분에 여전히 성능이 뛰어난 편이지만 제미나이나 라마, 큐원 등 오픈 소스 모델의 환각 성능이 지속적으로 개선되고 있다”고 분석했다.
- Copyright ⓒ 조선비즈 & Chosun.com -
Copyright © 조선비즈. 무단전재 및 재배포 금지.
- 5년 전 알테오젠이 맺은 계약 가치 알아봤다면… 지금 증권가는 바이오 공부 삼매경
- [절세의神] 판례 바뀌어 ‘경정청구’했더니… 양도세 1.6억 돌려받았다
- 반도체 업계, 트럼프 재집권에 中 ‘엑소더스’ 가속… 베트남에는 투자 러시
- [단독] 中企 수수료 더 받았다가 시정명령… 불복한 홈앤쇼핑, 과기부 행정訴 패소
- 고려아연이 꺼낸 ‘소수주주 과반결의제’, 영풍·MBK 견제 가능할까
- 무비자에 급 높인 주한대사, 정상회담까지… 한국에 공들이는 中, 속내는
- 역대급 모금에도 수백억 원 빚… 선거 후폭풍 직면한 해리스
- 금투세 폐지시킨 개미들... “이번엔 민주당 지지해야겠다”는 이유는
- ‘머스크 시대’ 올 것 알았나… 스페이스X에 4000억 베팅한 박현주 선구안
- [단독] 김가네 김용만 회장 성범죄·횡령 혐의, 그의 아내가 고발했다