[김용석의 IT 월드 <13>] AI 시대 고객 맞춤형 메모리 반도체의 질주
지금은 인공지능(AI) 시대다. AI 역사의 시작은 1940년대로 거슬러 올라가지만, 디지털 컴퓨터에 접할 수 있었던 1950년대 중반에 이르러서야 본격적인 논의가 있었다. 1956년, 미국 다트머스대에 있던 존 매카시 교수가 개최한 다트머스 회의를 통해 처음으로 AI라는 용어가 사용되기 시작했다. 그 이후 오랫동안 추운 겨울을 지나왔다. 봄을 맞이한 시기는 2012년으로 봐야 할 것이다.
2012년 열린 이미지넷(ImageNet) 경진대회에서 제프리 힌턴 토론토대 교수가 이끄는 연구 팀(슈퍼비전 팀)이 AI 이미지 인식률을 획기적으로 개선시켜 압도적인 차이로 우승하면서 AI가 다시 전 세계의 주목을 받기 시작했다. 당시 기존의 다른 연구 팀들의 이미지 인식 오답률이 26%대에서 소수점 공방을 벌이고 있을 때 힌턴 교수의 연구 팀은 딥러닝(deep learning)이라는 기법을 사용해 이미지 인식 오답률을 15%대까지 낮췄다.
딥러닝은 인간 신경망을 본뜬 인공신경망(ANN·Artificial Neural Network)을 통해 알고리즘 개발과 학습 및 추론이라는 복잡한 연산을 가능하게 해준 반도체 기술이 있어 가능했다. 반도체 기술과 AI 기술은 선순환의 관계를 가지고 있다. 결과적으로 반도체의 도움으로 AI 기술이 꽃필 수 있었던 것이다.
마이크로소프트(MS), 구글 같은 글로벌 빅테크들이 생성 AI(Generative AI) 개발 경쟁에 뛰어들면서 AI 서비스 구현을 위해 필수로 탑재되는 AI 반도체인 그래픽처리장치(GPU) 수요가 폭발적으로 증가하고 있다. AI 반도체는 현재 엔비디아가 GPU로 시장을 장악하고 있다. 현재 AI에 사용되는 반도체는 연산장치인 GPU와 저장을 담당하는 메모리가 있다. 주의 깊게 볼 것은 메모리 시장의 변화다. 눈에 띄는 건 그동안은 기성복처럼 공장에서 대량으로 만들어 내던 D램이 AI 시대에 맞춰 맞춤복 형태로 크게 바뀌고 있다는 점이다. 바로 고대역폭 초고속 메모리(HBM·High Bandwidth Memory), PIM(Processing In Memory) 같은 고객 맞춤형 메모리의 출현이다. 그중 단연 대표는 HBM이다. HBM은 가격이 일반 D램보다 5배가량 비싸다. 전체 D램 시장에서 HBM은 생산량 비중이 1%에 불과하지만, 매출액 기준으로는 10%를 차지하는 것으로 알려져 있다.
챗GPT 등장에 고성능 AI 반도체 수요 급증
두뇌 속에서 셀 수 없을 정도로 많은 신경세포와 시냅스(신경세포의 접합부)가 신호를 주고받는 것처럼, 칩 안에서 수만 개 연산을 동시에 처리해야 한다. 이를 담당하는 반도체는 중앙처리장치(CPU)와 GPU를 생각해 볼 수 있는데, 데이터를 순차적으로 직렬 처리하는 CPU는 대규모 병렬처리 연산을 필요로 하는 AI에 최적화돼 있지 않다. CPU는 입력 순서에 따라 연산을 처리하는 직렬 컴퓨팅 구조로 만들어졌다.
컴퓨팅 시스템 전체를 통제하거나 어려운 연산을 할 때는 유리하지만, 일정한 규칙 없는 수많은 데이터를 한꺼번에 처리해야 하는 AI 환경에서는 비효율적이다. CPU의 이러한 연산 능력 부족 문제는 2000년대 후반 GPU가 해결했다. 3D 게임 같은 고사양의 그래픽 처리를 위해 개발됐으나 데이터를 병렬처리한다는 특징이 있어 AI 반도체로 사용되고 있다.
최근 들어서 AI 기술 발전의 큰 사건이 있었다. 2022년 11월에 선보인 오픈AI의 채팅형 AI 챗GPT의 등장이다. 기존의 AI 모델 대비 언어의 맥락을 더 정교하게 이해하고 오류를 스스로 수정하며 ‘사람’과 대화하는 듯한 착각에 빠지게 할 만큼 고도화된 기술력을 보여주고 있다. 그러다 보니 초거대 AI의 데이터 학습에는 기존과 비교할 수 없는 연산량과 고속 데이터 처리 속도가 필수다. 또 매개변수라고 불리는 파라미터(매개변수)는 뇌의 학습과 기억, 연산을 담당하는 인간 뇌의 시냅스와 유사한 기능을 수행한다. 시냅스는 우리 두뇌에 있는 신경세포로, 시냅스가 더 많을수록 더욱 고차원적 사고가 가능하다.
마찬가지로 파라미터가 많을수록 AI는 높은 성능을 보이게 된다. GPT-3의 파라미터는 1750억 개에 이른다. GPT-4의 경우는 공개하지 않았으나 1조 개 이상으로 추정하고 있다. 파라미터는 많을수록 AI의 성능이 높아지고, 이를 구현하려면 더욱 강력한 GPU가 필요해진다. 그런데 GPU와 함께 사용하고 있는 표준 D램은 여전히 어려움을 가지고 있었다. 초기 대응책은 D램 용량을 늘리고 속도를 빠르게 하는 것이었지만, 근본적인 문제는 여전히 남아 있었다. 메모리 자체가 아니라 GPU와 메모리 간 데이터 통로가 비좁은 탓이었다.
고성능 맞춤형 메모리 ‘HBM’의 출현
HBM은 풀어 쓰면, 고(High)대역폭(Bandwidth)을 갖는 메모리(Memory)다. HBM이 주목받는 이유는 무엇일까. AI 알고리즘을 처리하는 과정에서 수행하는 연산과 저장 기능은 서로 다른 장치에서 이뤄진다. 연산은 GPU가, 저장은 메모리가 각각 담당하고 GPU와 메모리 사이에는 데이터를 주고받는 통로가 있다. 이 통로의 너비를 대역폭이라고 한다. 전통적인 D램으로는 폭발적인 데이터양을 감당하기 어려웠다. AI 성능을 높이려면 데이터가 D램에서 GPU로 이동하는 시간을 줄여야 했다. 따라서 고대역폭 메모리가 필요했고 기존 D램에서 속도와 용량을 개선한 그래픽 D램(GDDR)이 개발됐다. 그리고 GPU와 최대한 가까운 곳에 GDDR을 배치하는 등 기판 형태로 만들었지만, GPU의 처리 속도를 따라가지 못했다. 이러한 문제를 획기적으로 해결한 게 전송 속도와 용량을 개선한 HBM이다.
HBM은 미국 칩 제조 업체 어드밴스드 마이크로 디바이시스(AMD)와 SK하이닉스가 함께 2008년부터 개발을 시작했다. SK하이닉스가 2013년 HBM을 세계 최초로 선보인 후 HBM2(2세대), HBM2E(3세대), 현재 HBM3(4세대)까지 발전해 왔다. HBM3E(5세대)는 현재 시제품 수준이다. HBM 메모리 칩의 주 제조 업체는 SK하이닉스, 삼성 그리고 마이크론테크놀로지다. 2025년 양산 목표인 HBM4(6세대)는 HBM3 대비 두 배의 성능을 계획하고 있으며 SK하이닉스와 삼성의 치열한 승부가 예상된다.
차세대 메모리는 PIM과 LLW D램
HBM에 이어서 차세대 메모리의 첫 후보는 PIM(Processing in Memory) 이다. HBM은 연산과 저장 기능은 별도로 두고 그것들 간의 통로를 넓히는 것이지만, PIM은 메모리 반도체지만 아예 연산까지 수행하는 게 특징이다. 그동안 메모리 반도체는 데이터 저장 역할을 맡고, 사람의 뇌와 같은 기능인 연산기능은 CPU나 GPU가 담당해 왔다. 그런데 CPU가 주 기억장치인 메모리로부터 명령어를 불러오고 실행하며 그 결과를 다시 기억장치에 저장하는 작업을 순차적으로 진행하다 보니 이 과정에서 CPU와 메모리 간 주고받는 데이터가 많아졌다. 이 때문에 작업 처리가 지연되는 현상이 나타난다. 이를 ‘폰 노이만 병목현상’이라 부르는데 이 문제를 하나의 칩 내부에 메모리와 프로세서 연산기를 집적해 해결했다. 이를 통해 전력 소모도 줄일 수 있다.
LLW(Low Latency Wide) D램도 차세대 메모리로 꼽힌다. 이 반도체는 입출력단자(I/O)를 늘려 기존 모바일용 D램 대비 데이터 처리 용량(대역폭)을 늘렸다. SK하이닉스는 애플의 증강현실(AR) 기기 비전프로향으로 맞춤형 LLW D램을 공급하기로 했다. R1이라는 칩과 연동한다. R1은 AR 기기 여러 개에 장착된 카메라·센서가 인지한 외부 정보를 받아서 연산하는 프로세서다. 삼성전자도 일반 D램 대비 전력 효율이 70% 개선된 LLW D램을 내년 출시 계획 중이며 자사의 확장현실(XR) 기기에 적용할 계획이다.
메모리 업계는 AI로 인해서 엄청난 변혁기를 맞이하고 있다. 지금까지 살펴본 HBM, PIM, LLW D램 같은 맞춤형 메모리 시장이 활성화될 것으로 예상된다. 이 변화의 의미는 앞으로는 반도체 개발 초기 단계에서부터 세트(제품) 고객사와 긴밀한 협업이 필요해질 것이라는 점이다. 국내 대표 업체인 삼성전자, SK하이닉스의 더욱 발 빠른 대응이 필요한 시점이다.
Copyright © 이코노미조선. 무단전재 및 재배포 금지.