LG, 이미지 이해하는 멀티모달 AI ‘엑사원 4.5′ 공개

LG AI연구원은 텍스트와 이미지를 모두 이해하는 멀티모달 인공지능(AI) 모델 ‘엑사원(EXAONE) 4.5’를 공개했다고 9일 밝혔다.
엑사원 4.5는 LG AI연구원이 자체 개발한 ‘비전 인코더’와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM)이다. 계약서, 기술 도면, 재무제표, 스캔 문서 등 산업 현장에서 실제로 다루는 문서를 읽고 추론하는 데 강점을 보였다. 지난해 공개한 텍스트 전용 모델 엑사원 4.0이 글로벌 수준에 도달했다는 평가를 받았는데, 이미지를 이해하고 처리하는 능력까지 탑재한 것이다.
LG AI연구원이 공개한 벤치마크 점수에 따르면 엑사원 4.5는 과학·기술·공학·수학(STEM) 성능을 측정하는 5개 지표에서 평균 77.3점을 기록해 미국 오픈AI 지피티5-미니(73.5점), 앤트로픽 클로드 소넷 4.5(74.6점), 중국 알리바바 큐웬3 235B(77.0점)를 모두 앞섰다. 일반 시각 이해를 측정하는 지표 3개와 문서 이해 및 추론 성능 평가 지표 5개를 포함한 13개 지표 평균 점수에서도 글로벌 동급 모델보다 점수가 높았다
높은 효율성도 특징이다. 330억(33B)개 파라미터 규모인 엑사원 4.5는 지난해 말 공개한 ‘K-엑사원’의 7분의 1 크기로, 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 달성했다. LG AI연구원은 이날 엑사원 4.5를 글로벌 오픈소스 플랫폼인 ‘허깅페이스’에 연구·학술·교육 목적으로 사용할 수 있도록 공개했다.
LG AI연구원은 엑사원 4.5를 기반으로 ‘독자 AI 파운데이션 모델 프로젝트(국가대표 AI)’에 개발 중인 K-엑사원에도 이미지 능력을 탑재하는 등 모달리티 확장에 나선다는 계획이다.
이진식 LG AI연구원 엑사원랩장은 “엑사원 4.5는 LG AI가 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델”이라며 “이번 모델을 시작으로 음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다”고 했다.
Copyright © 조선일보. 무단전재 및 재배포 금지.
- 백악관 “2차 회담, 파키스탄 유력… 휴전 연장은 확정 안 돼”
- ‘Sleeve’를 모르면 다치는 건 당신의 ‘손가락’
- “아파서 안 움직이니 더 아파져”… 악순환 끊는 근막 운동
- 카프카의 이중생활… 낮에는 직장인, 밤에는 소설가
- 중국 장군 집에 마오타이가 만 병 쌓인 이유
- 번지수 잘못 짚은 ‘인권 외교’…이스라엘의 트라우마를 건드리다
- 법원도 “리호남 빠다칠” 인정했는데... ‘조작 기소’ 우긴 서영교의 자책골
- [굿모닝 멤버십] 3000위안짜리 맛이 맞나… 마오타이 가격의 비밀
- AI에 밀려난 청년들… 실업률 5년새 최악
- ‘응급실 뺑뺑이’로 아이 사망, 4억 배상 판결