[매경의 창] LLM 혁명의 새 슈퍼갑 '메모리'
메모리 읽어내는 데 쓰여
HBM 성능이 AI성능 좌우
삼전닉스, 새 전기 맞을 것

대규모언어모델(LLM)과의 화려한 대화 이면에는 GPU 내부의 치열한 물류 전쟁이 있다. 제미나이나 챗GPT 같은 LLM 모델들은 디코더 블록이 수십에서 수백 개 연속되는 구조를 갖고 있다. 디코더의 첫 입력은 프롬프트다. 보통 수십 토큰에서 많게는 수천만 토큰이 되기도 한다. 이 입력을 받아 디코더가 블록들을 모두 돌고 나면 토큰 1개를 출력한다. 토큰은 단어, 단어의 조각, 숫자, 기호 등이 될 수 있다. 이후 매번 한 바퀴마다 토큰을 1개씩 내뱉는다. 토큰이 출력될 때마다 프롬프트 뒤에 계속 붙어 입력 서열의 길이가 점점 길어진다. 이 서열이 길면 나이브하게 계산할 경우 부담이 이차함수적으로 커진다. 필자가 진행 중인 프로젝트에서는 우리가 명시적으로 제공하는 프롬프트만으로도 몇십만 토큰인 경우가 많다.
LLM은 대부분의 시간을 GPU에서 보낸다. GPU에는 계산 장치가 있고 계산 장치 바로 옆에 아주 빠른 메모리(SRAM)가 있다. 이건 용량이 아주 작다. 필자가 쓰는 H100 GPU는 백 개가 넘는 병렬 계산 모듈이 있는데 이들이 고작 75MB밖에 안 되는 SRAM을 나누어 쓴다. 그래서 대부분의 데이터는 HBM에 저장된다. H100의 HBM은 대개 100GB 근처다. 이름은 고대역폭메모리지만 GPU의 수행 시간을 다 잡아먹는 골칫거리다. 대신 용량이 크다.
메모리의 왕이라는 HBM이 그렇게 느린가? SRAM이 워낙 빨라 상대적으로 그렇다. 하드디스크 접근 시간은 메모리보다 10만배 정도 느리다. 메모리형 디스크인 SSD는 메모리보다 1000배 정도 느리다. 상황에 따라 다르지만 HBM은 SRAM보다 적어도 몇백 배 느리다.
디코더에서 긴 토큰 서열을 처리하려면 일이 많다. 우선 이들을 HBM에서 SRAM으로 읽어 들인다. 읽어 들인 토큰들은 준비된 행렬과 곱한다. 각 블록이 행하는 대부분의 계산은 행렬 곱셈이다. 행렬은 블록당 여섯 종류가 있다. 다행히 시간을 가장 많이 먹는 두 종류의 행렬 곱은 한 번 계산한 이후에는 다시 계산할 필요가 없다. HBM에 저장해 놓고 가져온다. 이걸 'KV 캐싱'이라고 한다. 전문 용어인데 최근에는 여러 지면에 심심찮게 보인다. 캐싱은 보통 데이터를 가져오기 빠른 곳에 저장해 두어 가져오는 시간을 줄이는 것을 말하는데 KV 캐싱은 의미가 조금 다르다. '계산 결과'를 가져옴으로써 '계산 시간'을 줄인다. 토큰 서열의 길이가 10만이라면 KV 캐싱으로 블록의 계산 시간이 몇만 배 빨라진다. 연산은 빛의 속도로 끝나지만 데이터를 나르는 시간은 여전히 늦다. 결과적으로 LLM은 GPU의 수행 시간 대부분을 HBM과 SRAM 사이의 데이터 통로에서 보낸다. KV 캐싱을 하는 경우 심하면 99% 이상의 시간이 여기서 소모된다.
수의 표현에 필요한 비트 수를 줄이면 데이터 이동량이 줄어든다. 얼마 전에 발표한 구글의 터보퀀트가 이 부분의 최근 기술이다. 표현의 크기를 대략 4분의 1 정도로 줄였다. 이를 통해 줄인 이동 시간은 압축 해제를 위한 계산으로 상쇄되어 속도 개선은 미미하다. 결국 HBM을 덜 쓰는 효과가 있어 한정된 자원으로 더 많은 사용자를 수용할 수 있게 해준다.
HBM이 GPU 성능의 발목을 잡고 있다. 기술적으로 HBM에 더 압축해서 저장을 하더라도 폭증하는 수요를 꺾기에는 턱없다. HBM으로 인한 생산 비중 조정으로 다른 메모리들도 모자란다. 엔비디아가 슈퍼갑이던 분위기에서 이제는 메모리 1위 삼성이 슈퍼갑 자리를 빼앗을 기세다. 늦어도 내후년이면 삼성전자의 영업이익이 엔비디아를 넘어설 것 같다. 그야말로 세계에서 이익 1위 기업이 되고, 지금까지 존재하던 역사상 최고의 이익을 낼 것이다. 어제 기준 엔비디아의 시총은 6500조원, 삼성전자는 1200조원이다.
[문병로 서울대 컴퓨터공학부 교수]
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- [단독] ‘땅콩회항’ 폭로했던 박창진, 한국공항공사 자회사 임원 됐다 - 매일경제
- “이러다 크게 물리는 거 아냐”…금융위기때 보다 더 빠진 외국인 투자자금 왜? - 매일경제
- [속보] 민주당, 서울시장 후보에 정원오 확정…본경선 과반 득표 - 매일경제
- 상한가 쏘아올린 건설주 “더 간다”…목표가 2배 상향 릴레이 - 매일경제
- “강남 집주인들은 발동동인데”…‘이 동네’는 북적, 이유 보니 - 매일경제
- [단독] 호르무즈 선박 보험 불확실성 점검 나선 해수부…英대사관 협조 요청 - 매일경제
- “야근한 시간만큼 돈 다 줘라”…포괄임금제 ‘퉁치기’ 9일부터 안된다 - 매일경제
- “실손보험 5세대로 바꾸라고?”…사실과 다른 강제전환 권유에 혼란 - 매일경제
- “저희 같은 곳은 더는 못버팁니다”…소상공인 덮친 중동전쟁발 이중 압박 - 매일경제
- 손흥민, 챔피언스리그 디펜딩 챔피언 상대 선제골 작렬! LAFC도 승리 - MK스포츠