메타, 모델 속도 최대 3배 향상 연구 발표…다중 토큰 예측 적용
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
페이스북 운영사 메타는 대규모 언어 모델(LLM)의 정확성과 속도를 개선할 수 있는 연구 결과를 발표했다.
연구진은 "다중 토큰 예측이 모든 유형의 모델 및 언어 작업에 보편적인 솔루션은 아니지만, 생성 작업에서 3배 빠른 속도와 더 나은 성능을 제공하는 등 일부 영역에서 상당한 이점을 제공한다"고 말했다.
연구 결과에 따르면, 큰 모델일수록 다중 토큰 예측의 효과가 증가하는 것으로 나타났다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
AI 대형 언어 모델의 정확도 및 속도 개선
연구의 핵심은 다중 토큰 예측 기법이다. 전통적인 자동회귀 언어 모델이 한 번에 한 토큰씩 예측하는 것과 달리, 여러 토큰을 동시에 예측함으로써 모델 향상시킬 수 있는 방법이다. 연구진은 “다중 토큰 예측이 모든 유형의 모델 및 언어 작업에 보편적인 솔루션은 아니지만, 생성 작업에서 3배 빠른 속도와 더 나은 성능을 제공하는 등 일부 영역에서 상당한 이점을 제공한다”고 말했다.
트랜스포머 아키텍처를 기반으로 한 멀티 토큰 예측 모델은 기존의 구조를 사용하되, 단일 출력 대신 여러 독립적인 출력 헤드를 통해 여러 토큰을 동시에 예측하는 것이 특징이다. 추론 과정에서는 기본적인 다음 토큰 예측을 유지하면서, 추가적인 출력 헤드를 사용해 디코딩 속도를 빠르게 할 수 있다. 이를 통해 실행 시간을 최대 세 배까지 단축시킨다.
특히, 바이트 수준에서 토큰화를 진행하는 실험에서는 멀티 토큰 예측이 기존 모델을 크게 앞서는 결과를 나타냈다. 이는 사전에 정의된 어휘 없이 작은 정보 조각을 사용해야 하는 애플리케이션에 특히 중요하다는 평가다. 연구 결과에 따르면, 큰 모델일수록 다중 토큰 예측의 효과가 증가하는 것으로 나타났다. 예측하는 토큰의 수가 많을수록 모델의 성능이 향상된다는 뜻이다.
연구진은 “이와 같은 멀티 토큰 예측 기술은 추가 비용 없이도 기존 모델보다 더 강력하고 빠른 트랜스포머 모델을 훈련시킬 수 있는 효과적인 방법”이라며 “앞으로 이 기술의 다양한 응용 가능성을 탐구할 계획”이라고 덧붙였다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- 인천 새 호텔에 수백명 몰렸다…삼성이 만든 볼거리에 ‘탄성’ - 매일경제
- “소름끼치는 쾌락…北 기쁨조 매년 25명 뽑아, 성접대 담당도” 탈북女 주장 - 매일경제
- “매년 3조 청구서 날아온다”...국민들 먹지도 않는 쌀, 이렇게나 사들인다니 - 매일경제
- “죽어갔는데, 집밥이 되살렸다”…해마다 마이너스 찍던 ‘이것’ 5년만에 매출 쑥 - 매일경제
- “신상 공개한다” 협박해 5억 뜯어낸 30만 유튜버…구속 상태서 기소 - 매일경제
- “직업이 뭐니, 돈 많아도 아무나 못사”…국내 첫 명품 아파트, 뭐가 다를까? - 매일경제
- “성심당, 드디어 서울 진출” 환호했는데…“죄송합니다, 빵은 대전에서” - 매일경제
- “선거후원 행사에 측근들 다 빠졌네”...내분조짐 노출한 공화당 - 매일경제
- 주말에만 ‘1만개’씩 팔리는 빵 - 매일경제
- 스윕 당하면 뒤집힌다, 242억 투자 한화 ‘꼴찌 도돌이표’ 위기…‘취임 1주년’ 앞둔 최원호 감