한국어 AI언어모델 비용 개선 가능

하성진 기자 2026. 4. 6. 20:38
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

충북대 이재성 교수팀 사용 토큰 수 19% 줄여
모로코 학술대회서 `형태소기반 개발' 논문 발표
충북대 정문. /충북대학교 제공
이재성 교수

[충청타임즈] 인공지능(AI) 사용의 비용과 전기, 반도체 자원을 획기적으로 줄일 수 있는 방법을 충북대 교수진이 개발해 주목을 받고 있다.

AI의 사용 비용은 `토큰'이라는 단위로 계산된다. 이 토큰은 AI에서 사용되는 언어의 조각으로 이를 처리하는데 반도체 자원과 전기, 비용이 발생한다.

충북대학교 언어지식공학연구실 이재성 교수(사진) 연구팀은 AI 한국어 토큰의 품질을 대폭 개선한 방법을 개발했다고 6일 밝혔다.

연구팀은 교착어인 한국어의 특징을 반영해 토큰을 새롭게 구조화한 결과 기존 방법보다 19% 적은 수로 토큰을 사용하면서도 더 좋은 품질의 출력을 내는 데 성공했다.

연구팀은 `형태소 기반 한국어 토큰화 방법' 논문을 지난 3월24일부터 29일까지 모로코의 수도 라밧에서 열린 인공지능분야의 권위 있는 국제 학술대회인 EACL 2026에서 발표했다.

논문에는 컴퓨터과학전공 이동혁(석사졸업)·박정연(박사졸업)·조경빈씨(석사2년)가 참여했다.

연구팀에 따르면 지금까지 사용되고 있는 최신의 방법은 한국어의 표층형 음절 위주로 토큰을 분리하고 또 어절 경계와 형태소 경계를 구분하기 위해 매 어절마다 어절 분리 토큰을 추가로 사용했다.

하지만 이번에 새로 개발한 방법은 불규칙 용언 활용형의 원형까지 밝혀 토큰을 계산하기 때문에 같은 원형의 단어들을 토큰으로 더 묶을 수 있어 사용하는 토큰 수를 줄일 수 있었다.

또 어절 경계와 형태소 경계를 구분하기 위해 두 개의 다른 특수 접두사를 사용해 어절 분리 토큰을 사용하지 않고도 경계를 구분할 수 있도록 했다.

연구팀은 이와 같은 형태론적 인식 모델의 효과성 검증을 위해 위키백과에서 3만2000개 토큰이 들어간 어휘를 추출한 뒤 4100만개의 매개변수를 가진 중형의 언어 인식 모델인 `BERT'에서 학습한 후 미세 조정 과제를 수행했다.

이 교수는 "새로 개발한 한국어 입력 모델은 기존 방법에 비해 언어 학습, 추론, 응답에서 속도가 최대 19% 빨리 처리할 수 있는 것으로 나타났다"며 "앞으로 한국어로 된 AI모델 개발에 유용한 도구가 될 것"이라고 말했다.

/하성진기자

seongjin98@cctimes.kr

Copyright © 충청타임즈. 무단전재 및 재배포 금지.