긴 문서도 ‘척척’…SKT, 자체 LLM 기반 멀티모달·문서해석 기술 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
SK텔레콤은 자사 거대언어모델(LLM) '에이닷 엑스'(A.X)를 기반으로 한 시각-언어모델(VLM1)과 LLM 학습을 위한 범용 문서 해석 기술을 선보였다고 29일 밝혔다.
이날 SKT가 오픈소스 커뮤니티 허깅페이스에 공개한 모델은 'A.X 인코드'(Encoder)와 'A.X 4.0 비전 랭귀지 라이트'(VL Light) 2종이다.
'A.X 4.0 VL 라이트'는 대규모 멀티모달 한국어 데이터셋이 학습된 시각-언어모델(VLM)이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
SK텔레콤은 자사 거대언어모델(LLM) '에이닷 엑스'(A.X)를 기반으로 한 시각-언어모델(VLM1)과 LLM 학습을 위한 범용 문서 해석 기술을 선보였다고 29일 밝혔다. 이로써 SKT가 이달 선보인 모델은 총 6개로 늘었다.
이날 SKT가 오픈소스 커뮤니티 허깅페이스에 공개한 모델은 'A.X 인코드'(Encoder)와 'A.X 4.0 비전 랭귀지 라이트'(VL Light) 2종이다. 이 모델들은 학술 연구나 상업 이용 등에 활용 가능하다.
'A.X 인코더'는 1억4900만개(149M)의 매개변수를 바탕으로 작동한다. 자연어 이해 성능지표 평균 85.47점을 달성했다. 자연어처리 기술에서 인코더란, 입력된 문장을 문맥으로 변환하고 이를 바탕으로 다양한 자연어 처리 작업을 수행하도록 돕는 핵심 구성요소다.
A.X 인코더는 1만6384개의 토큰까지 처리가 가능해 기존 모델들보다 최대 3배의 추론속도와 2배의 학습속도를 구현할 수 있다. 통상적으로 기존 모델들이 512개의 토큰을 처리했다. 긴 문서도 빠르고 효율적으로 처리 가능해 대규모 LLM 학습에 적합하다.
'A.X 4.0 VL 라이트'는 대규모 멀티모달 한국어 데이터셋이 학습된 시각-언어모델(VLM)이다. 70억개(7B) 매개변수의 A.X 4.0 라이트 모델을 기반으로 개발됐다. 한국어 시각 벤치마크에서는 평균 79.4점을 기록해 중국 큐원 '2.5-VL32B'(73.4점)보다 작은 모델 크기에도 우수한 성능을 보였다. 한국어 텍스트 벤치마크에서는 평균 60.2점을 기록해 국내 모델 중에서 최상위권에 포진했다. 한국어와 관련된 시각정보 및 언어 이해뿐 아니라 표·그래프 이해, 제조 도면 이해와 같은 기업용 애플리케이션에도 활용할 수 있다.
김태윤 SK텔레콤 파운데이션 모델 담당은 "독자적인 기술력 확보가 소버린 AI의 핵심인 만큼 자체 역량을 높이고 컨소시엄 기업들과의 협업에도 박차를 가해 글로벌 최고 수준의 AI 경쟁력을 확보할 것"이라고 말했다.
김나인 기자 silkni@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.
- [기획] 李 “산재사망 상습 기업, 수차례 공시해 주가 폭락하게”
- “5급 공무원 차량서 ‘수천만원 돈다발’”…긴급 체포
- ‘역삼동 마약운전’ 20대 체포…대낮에 전신주·담장 ‘쿵’
- 김병기 “내란 잔당 뿌리 뽑을 것…김건희 즉각 구속해야”
- ‘주택에 벤츠 돌진’ 숨진 10대女…80대 여성 ‘운전 미숙’ 입건
- 김병기 “국힘, 미국과 협상서 최대 리스크…제발 조용히 있어라”
- 조국 “나와 내 가족 희생당해도 尹 반드시 공적 응징”
- 김병기 “한미 협상 진행 중인데…국힘, 정신 있는 건가”
- “김치가 파오차이? 선넘었네”…서경덕 교수 “中 짝퉁 ‘흑백요리사’ 논란”
- 원안위, 국내 최초 원전 고리 1호기 해체 승인… 원전 해체 시장 열렸다