LG, 이미지 이해하는 멀티모달 AI ‘엑사원 4.5′ 공개

박지민 기자 2026. 4. 9. 10:17
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

LG '엑사원 4.5'과 글로벌 동급 모델 벤치마크 점수 비교. /LG AI연구원

LG AI연구원은 텍스트와 이미지를 모두 이해하는 멀티모달 인공지능(AI) 모델 ‘엑사원(EXAONE) 4.5’를 공개했다고 9일 밝혔다.

엑사원 4.5는 LG AI연구원이 자체 개발한 ‘비전 인코더’와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM)이다. 계약서, 기술 도면, 재무제표, 스캔 문서 등 산업 현장에서 실제로 다루는 문서를 읽고 추론하는 데 강점을 보였다. 지난해 공개한 텍스트 전용 모델 엑사원 4.0이 글로벌 수준에 도달했다는 평가를 받았는데, 이미지를 이해하고 처리하는 능력까지 탑재한 것이다.

LG AI연구원이 공개한 벤치마크 점수에 따르면 엑사원 4.5는 과학·기술·공학·수학(STEM) 성능을 측정하는 5개 지표에서 평균 77.3점을 기록해 미국 오픈AI 지피티5-미니(73.5점), 앤트로픽 클로드 소넷 4.5(74.6점), 중국 알리바바 큐웬3 235B(77.0점)를 모두 앞섰다. 일반 시각 이해를 측정하는 지표 3개와 문서 이해 및 추론 성능 평가 지표 5개를 포함한 13개 지표 평균 점수에서도 글로벌 동급 모델보다 점수가 높았다

높은 효율성도 특징이다. 330억(33B)개 파라미터 규모인 엑사원 4.5는 지난해 말 공개한 ‘K-엑사원’의 7분의 1 크기로, 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 달성했다. LG AI연구원은 이날 엑사원 4.5를 글로벌 오픈소스 플랫폼인 ‘허깅페이스’에 연구·학술·교육 목적으로 사용할 수 있도록 공개했다.

LG AI연구원은 엑사원 4.5를 기반으로 ‘독자 AI 파운데이션 모델 프로젝트(국가대표 AI)’에 개발 중인 K-엑사원에도 이미지 능력을 탑재하는 등 모달리티 확장에 나선다는 계획이다.

이진식 LG AI연구원 엑사원랩장은 “엑사원 4.5는 LG AI가 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델”이라며 “이번 모델을 시작으로 음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다”고 했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.