[매경의 창] 은유와 추상의 혁명: 트랜스포머

2023. 6. 29. 17:21
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

알고리즘 품질은 곧 은유 능력
최근 AI혁명은 은유·추상 혁명
6년전 트랜스포머 출현이 전기

고등교육의 목적은 긴장도 높은 은유를 감지하는 능력을 기르는 것이다. 관계 있는 두 대상이 표면적으로 관계 있어 보이지 않을수록 은유의 긴장도가 높다고 한다. 전문성이 높아질수록 은유적 감지 능력이 높아진다.

데이터를 처리하는 알고리즘의 품질도 은유적 능력과 관련이 있다. 다른 알고리즘이 감지하지 못하는 관계를 감지하는 알고리즘은 은유적 능력이 높은 것이다. 최근의 AI 혁명은 은유와 추상의 혁명이다.

2012년 딥러닝 혁명이 시작되었다. 딥러닝은 심층신경망을 이용한 학습을 총칭한다. 핵심은 복잡해진 '추상화'다. 신경망의 한 층(단계)을 지나가는 것은 한 번의 추상화에 해당한다. 한 번의 행렬곱으로 구현된다. 수학적으로는 공간의 변환이다. 새로운 (암묵적) 관계가 드러날 수 있는 여지를 제공한다. 심층신경망이란 단계가 깊어진 신경망이다. 추상화의 깊이가 더 깊어진 신경망이다. 이 깊이와 크기가 예전에는 다룰 수 없던 수준으로 커졌다. 그래픽용으로 사용되던 GPU 보드를 병렬 처리에 전용할 수 있게 되면서 계산 규모의 도약이 일어났다. 이것만으로는 아직 좀 부족했다.

2017년 트랜스포머 어텐션(이하 트랜스포머)이 등장했다. 데이터들 간의 관계를 감지할 수 있는 수준을 도약시킨 혁명적 기법이다. 은유적 능력의 도약이다. 구글 브레인의 논문으로 나왔다. 이 계열의 프로젝트들은 존재한 적 없던 수준의 이면적, 잠재적 관계와 존재한 적 없던 수준의 추상화로, 불가능했던 수준의 일을 해냈다. 2017년 이후 가장 주목할 만한 산출물들이 모두 트랜스포머 계열이다.

언어 번역 트랜스포머 모델에서 토큰(편의상 단어라 생각하자)들은 각자의 표현을 가진다. 예를 들면 2048개의 실수로 구성된 벡터로 표현된다. 의외로 처음에 각 단어 벡터를 아무렇게나 만들어놓고 시작한다. 임의로 생성된 2048개의 실수다. 이 표현은 데이터로 훈련을 진행하면서 번역의 품질을 높이는 방향으로 수정(학습)된다. 궁극적으로 관계 깊은 단어들은 서로 더 유사한 표현을 갖고 관계가 먼 단어들은 이질적인 표현을 가져야 좋은 결과를 얻는다. 수행이 끝난 후 단어의 표현을 살펴보면 Calvin과 Klein이 유사한 표현을 갖고 go와 went, big과 large도 그렇다. 각 단어는 자신과 가까이 출현하는 단어들과의 상관성을 반영하여 표현이 계속 변한다. 트랜스포머는 변환기다.

상관성을 계산하는 전후에 과해 보이는 수준의 추상화(행렬 곱셈)가 포함된다. 얼핏 정보를 흐리는 것처럼 보이기도 한다. 십만 개의 행렬이 포함되어도 놀랍지 않다. 이 행렬들이 거의 다 학습 대상이다. 즉 번역의 품질을 높이는 쪽으로 추상 엔진(행렬)들의 내용이 수정되어 간다. 필자에게 이 메커니즘은 다양한 재료들이 섞여 꿈틀거리는 춤처럼 보인다. 표현이 꿈틀거리고(수정되고), 관계가 꿈틀거리고(계산되고 수정되고), 추상화가 꿈틀거린다(행렬이 곱해지고 수정된다). 아무렇게나 임의로 만든 단어의 표상으로 시작해서 꿈틀거리며 자리를 잡아간다.

트랜스포머는 두 줄기 큰 흐름으로 분화했다. 첫째는 생성형 AI다. 설명할 필요도 없을 정도다. 언어 생성, 그림 생성, 프로그램 생성 열풍을 몰고 왔다. 챗GPT, 바드, Dall E 2 등이 대표적이다. 둘째는 최적화 AI다. 대표적인 예가 알파폴드 2다. 천년의 도전이라던 단백질 3차원 구조 예측 문제를 거의 정복해버렸다. 확장·변형의 수준이 굉장하다. 몇 개 분야의 이질적 기술이 혼합된 종합 예술이다. 화학적 분자구조 예측 분야도 있다. 주식 분야에서도 트랜스포머 논문들이 쏟아지지만 대개 한숨 나오는 수준이다. 최적화 AI는 상대적으로 덜 주목받고 있지만 기술적으로는 이쪽이 더 복잡하고 깊다. 문제 해결의 패러다임 전환이 시작되었다.

[문병로 서울대 컴퓨터공학부 교수]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?