메타, 모델 속도 최대 3배 향상 연구 발표…다중 토큰 예측 적용

에콜데퐁·파리클레와 공동 연구 진행
AI 대형 언어 모델의 정확도 및 속도 개선

페이스북 운영사 메타는 대규모 언어 모델(LLM)의 정확성과 속도를 개선할 수 있는 연구 결과를 발표했다. 메타는 새 연구를 통해 모델 속도를 최대 3배 빠르게 할 수 있다고 제시했다. 이번 연구는 아카이브에 실렸으며 에콜 데 퐁 파리테크, 파리 사클레 대학 등 프랑스 연구진과 함께 진행됐다.

연구의 핵심은 다중 토큰 예측 기법이다. 전통적인 자동회귀 언어 모델이 한 번에 한 토큰씩 예측하는 것과 달리, 여러 토큰을 동시에 예측함으로써 모델 향상시킬 수 있는 방법이다. 연구진은 “다중 토큰 예측이 모든 유형의 모델 및 언어 작업에 보편적인 솔루션은 아니지만, 생성 작업에서 3배 빠른 속도와 더 나은 성능을 제공하는 등 일부 영역에서 상당한 이점을 제공한다”고 말했다.

트랜스포머 아키텍처를 기반으로 한 멀티 토큰 예측 모델은 기존의 구조를 사용하되, 단일 출력 대신 여러 독립적인 출력 헤드를 통해 여러 토큰을 동시에 예측하는 것이 특징이다. 추론 과정에서는 기본적인 다음 토큰 예측을 유지하면서, 추가적인 출력 헤드를 사용해 디코딩 속도를 빠르게 할 수 있다. 이를 통해 실행 시간을 최대 세 배까지 단축시킨다.

특히, 바이트 수준에서 토큰화를 진행하는 실험에서는 멀티 토큰 예측이 기존 모델을 크게 앞서는 결과를 나타냈다. 이는 사전에 정의된 어휘 없이 작은 정보 조각을 사용해야 하는 애플리케이션에 특히 중요하다는 평가다. 연구 결과에 따르면, 큰 모델일수록 다중 토큰 예측의 효과가 증가하는 것으로 나타났다. 예측하는 토큰의 수가 많을수록 모델의 성능이 향상된다는 뜻이다.

연구진은 “이와 같은 멀티 토큰 예측 기술은 추가 비용 없이도 기존 모델보다 더 강력하고 빠른 트랜스포머 모델을 훈련시킬 수 있는 효과적인 방법”이라며 “앞으로 이 기술의 다양한 응용 가능성을 탐구할 계획”이라고 덧붙였다.

매일경제

IT

메타, 모델 속도 최대 3배 향상 연구 발표…다중 토큰 예측 적용