`트랜스포머` 잇는 초초거대 AI 오나… 구글, `타이탄즈` 공개
"LLM·RNN 접목해 고유한계 극복
더 적은 파라미터로 GPT-4 능가"

"트랜스포머 아키텍처를 잇는 초초거대 인공지능(AI) 기술이 등장하나."
구글이 현재의 대형언어모델(LLM)의 한계를 극복하기 위한 새로운 아키텍처를 선보였다. 인간이 기억하는 방식을 모방해 인공지능(AI)의 메모리 방식을 구현, 보다 효율적이면서 기억·학습도 더 잘하는 모델이 등장할 것으로 기대한다.
최근 구글 연구진은 '타이탄즈(Titans)'라 명명한 새로운 '신경 장기 기억 모듈(neural long-term memory module)'에 대한 논문(Titans: Learning to Memorize at Test Time)을 연구성과 공유 사이트인 아카이브에 올렸다. 이를 작성한 알리 베루즈, 페이린 종, 바합 미로크니 등 구글 연구원 3인은 이를 기반으로 한 AI모델이 언어 모델링, 상식 추론, 유전체 분석, 시계열 작업 등에 더욱 효과적·효율적으로 작동할 것이라고 밝혔다.
논문은 현재 LLM의 기반인 트랜스포머 구조와 기존 딥러닝 기술인 순환신경망(RNN)을 접목, 각각이 가진 한계를 극복하는 것이 핵심이다. 특히 긴 문맥(콘텍스트) 정보를 효율적으로 저장하고 활용할 수 있는 장기 메모리(long-term memory)를 도입, 시간에 지남에 따라 대량의 정보를 처리하는 방식을 개선했다. 파이토치와 JAX로 구현됐으며, 모델 훈련·평가에 쓰인 코드도 곧 공개할 계획이다.
어텐션 기반 트랜스포머는 짧은 문맥 내 관계(종속성)를 모델링하는 데 강력하지만, 문맥이 길어지면 연산 및 메모리 비용이 기하급수적으로 증가하는 문제가 있다. RNN과 선형 트랜스포머 방식은 메모리 사용량을 줄이기 위해 정보를 압축해 저장하지만, 이는 정보손실을 초래하고 긴 문맥 정보를 효과적으로 활용하지 못할 수 있다.
구글의 새 아키텍처는 단기, 장기, 작업 기억으로 나눠 정보를 저장·활용하는 인간 뇌의 기억 구조를 모방했다. △트랜스포머의 어텐션 메커니즘을 사용해 현재의 문맥 데이터를 처리하는 단기메모리 코어 △과거 데이터를 테스트 과정에서도 학습·저장하며 필요 시 검색(retrieve)도 하는 장기메모리 △특정 태스크에 대한 사전지식을 저장하는 독립적 파라미터인 지속(Persistent) 메모리 등 3개 주요 모듈을 구성하고 정보처리 방식을 결합했다.
'타이탄즈'는 인간이 인상적인 것을 더 잘 기억하는 면도 모방했다. 입력 데이터가 과거 데이터와 얼마나 다른지 '놀라움(surprise)' 지표로 측정, 높은 값의 정보는 더 강하게 학습하는 동시에 '적응형 망각(Adaptive Forgetting)' 메커니즘을 통해 중복 등 값이 떨어지는 정보를 제거하기도 한다. 이런 효율적인 접근방식을 통해 정확도를 잃지 않으면서 수많은 데이터 포인트를 처리할 수 있게 한다.
그 성능과 효율성은 기존 언어모델들의 방식을 능가할 것으로 기대된다. 논문에 따르면 200만 토큰 이상의 문맥에서도 높은 정확도를 유지, 기존 모델이 긴 문맥에서 성능이 급격히 저하되는 문제를 극복했다. 중요도를 따져 기억·망각하는 메커니즘 덕분에 정확하게 정보를 찾아냈다. 긴 문맥에서의 복잡한 추론 작업을 평가하는 벤치마크(BABILong)에선 더 적은 파라미터로도 오픈AI GPT-4나 메타 라마3를 능가하는 성능을 발휘했다.
'타이탄즈'는 △현재 문맥에 메모리의 과거 데이터를 결합해 더 나은 의사결정을 지원하는 '콘텍스트형 메모리(MAC)' △짧은 문맥과 긴 문맥 정보를 게이팅(gating)으로 통합해 균형 있게 사용하는 '게이트형 메모리(MAG)' △장기메모리를 신경망의 한 층으로 통합해 처리하는 보다 단순한 구조인 '레이어형 메모리(MAL)' 등 3가지 아키텍처 변형을 지녔다.
조성배 연세대 AI융합대학원장은 "기본적으로 트랜스포머는 모든 문맥을 어텐션이란 파라미터에 저장한다. 문맥이 길어지면 오래된 것을 기억할 수 없어 모델 규모를 키우는 게 현재 방식인데, 논문은 이 부분을 전통적인 RNN의 아이디어로 보완하려는 것"이라며 "코드가 아직 공개되지 않아 확인할 수는 없지만, 실험결과만 보면 꽤 가능성이 큰 방법으로 보인다. 단, RNN 계열은 동일한 파라미터로 많은 내용을 담고자 해서 안정성 문제가 있는데 이 모델도 그럴 수 있다"고 짚었다.
조정호 업스테이지 AI리서치엔지니어는 "타이탄즈는 기존 트랜스포머의 한계로 지적된 장기 의존성 문제를 장기기억모듈과 영구기억모듈 등 인간의 기억 시스템을 모방한 방식으로 해결, 특히 긴 문맥의 처리에서 다른 방법론 대비 큰 폭의 성능 향상을 기록했다"며 "기존 트랜스포머를 대체할 아키텍처로 기대가 높다. 다만 라마 등 최신 모델과 비슷한 데이터로 학습했을 때 성능 차이를 비교해봐야 할 것"이라 밝혔다.팽동현기자 dhp@dt.co.kr
Copyright © 디지털타임스. 무단전재 및 재배포 금지.
- 후배 향해 "이 XX는 사람도 아니다" …대법 "모욕죄 안돼" 그 이유
- 중국군의 신무기 `상륙작전용 바지선` 놀라운 기능…인터넷에 공개
- 4살 자녀 앞에서…지인 살해하고 아내까지 성폭행한 40대男
- 검찰, 시청역 역주행 운전자 징역 7년6개월 구형…"엄벌해야"
- 中 남녀 경찰, 영화같은 이야기…`위장연인`으로 마약수사하다 실제 약혼
- 원안위, 국내 최초 원전 고리 1호기 해체 승인… 원전 해체 시장 열렸다
- "선생님, 보험 안 돼도 로봇수술로 해주세요"…수술 로봇 수입 1년 새 57% 증가
- 트럼프, 이란과 핵협상 한다면서 무력충돌 가능성도 제기
- 하반기 산업기상도 반도체·디스플레이 `맑음`, 철강·자동차 `흐림`
- `6조 돌파`는 막아라… 5대은행, 대출조이기 총력전