점점 뜨거워지는 반도체…열 내리는 기업이 ‘칩 워’의 승자 [위클리반도체]

이상덕 기자(asiris27@mk.co.kr) 2024. 11. 24. 15:54
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

공정 미세해지면서, 심각해지는 발열
첨단 GPU 72대 연결 엔비디아 서버
평상시 정상 온도만 최대 85도 달해
발열 이슈로…반도체 주식 한때 출렁
신소재·냉각 혁신으로 발열 해결책 모색
‘GB200 NVL72’이라는 서버시스템을 공개한 젠슨 황 엔비디아 CEO
오늘날 반도체 산업에는 한 가지 큰 딜레마가 있습니다.

반도체 연산 성능을 높이면 높일수록, 점점 더 뜨거워져 한계에 부딪힌다는 점입니다. 마치 초고성능 엔진을 장착한 자동차가 속도를 높일수록 엔진의 열이 감당하기 어려운 수준에 달하는 것과 같은 이치입니다. 그동안 반도체 발열은 큰 문제가 안 됐습니다. 하지만 발열 문제는 10nm(나노미터·1나노미터는 머리카락 굵기의 10만분의 1) 이하 공정부터 점진적으로 발생하다, 7nm 공정에 접어들면서 본격적으로 나타났습니다. 공정이 미세화될수록 발열 문제는 심화할 가능성이 큽니다. 반도체의 최소 단위는 트랜지스터입니다. 트랜지스터는 0과 1의 이진 신호를 제어해 데이터를 처리합니다. 오늘날 칩은 수십억 개에서 수조 개에 달하는 트랜지스터로 구성돼 있습니다. 예를 들어 반도체를 3nm와 같은 미세 공정에서 생산한다는 뜻은 그만큼 반도체 소자인 트랜지스터를 내부에 더 많이 밀집시키는 것을 가리킵니다.

블랙웰이 던진 숙제
‘GB200 NVL72’ 높이만 2m 안팎에 무게는 1.5t에 달한다.
반도체 발열에는 몇몇 이유가 있습니다. 미세 공정으로 트랜지스터를 밀집시킬수록 전자가 이동하는 거리와 시간이 줄어듭니다. 연산 성능은 높아집니다만, 상대적으로 발열이 심해집니다. 또 있습니다. 연산 성능을 높이고자, 클럭 속도(주파수)를 증가시키기도 하는데요. 이에 따라 전력 소모 역시 비례적으로 늘어납니다. 그만큼 더 많은 열이 발생합니다. 이뿐 아닙니다. 트랜지스터는 온(On) 오프(Off)를 반복적으로 ‘스위칭’하면서 데이터를 처리합니다. 이런 행동 자체가 에너지 손실을 부르고 열을 발생하는데요. 밀도를 높여 설계를 하다보면, 트랜지스터간에 간섭 현상이 발생합니다. 이에 누설 전류가 늘어나고, 더 많은 열이 발생합니다.

반도체 업계를 이끄는 엔비디아 역시 예외는 아닙니다. 엔비디아는 차세대 그래픽처리장치(GPU)인 ‘블랙웰(Blackwell) B200’의 발열 문제로 한바탕 홍역을 앓았습니다. 블랙웰은 올 3월 선보인 괴물 GPU인데요. 연산 단위인 트랜지스터 2080억개를 탑재해, 연산 성능이 무려 20페타플롭(PetaFlops)에 달합니다. 초당 2경 번에 달하는 계산이 가능합니다.

블랙웰 B200은 인공지능(AI)을 학습·추론하는 AI 가속기의 근간입니다. 블랙웰 B200 2대에 중앙처리장치(CPU)인 그레이스 1대, 그리고 고대역폭 메모리인 HBM3E 16대를 결합하면 AI 칩인 ‘GB200’이 됩니다. GB200은 막강한 AI 가속기입니다. 챗GPT 근간이 되는 GPT-3.5를 기준으로 놓고 보면, 종전 모델인 H100보다 성능이 7배, AI 학습 속도는 4배나 빠릅니다. 이게 끝이 아닙니다.

120가구 전기 소모하는 서버
AI 칩 ‘GB200’
엔비디아는 연산을 극대화하고자 AI 칩 ‘GB200’을 72대나 연결했습니다. ‘GB200 NVL72’이라는 서버시스템입니다. GPU간 거리가 짧아질수록 데이터 전송 지연(latency)이 줄어들고, 효율적인 병렬 연산할 수 있어서인데요. 높이만 2m 안팎에 무게는 1.5t에 달합니다. 외관은 마치 철제 캐비닛과 닮았습니다. GB200 NVL72은 종전 버전보다 언어 모델에 대한 추론 능력이 30배 높고, 데이터 처리 능력은 18배 우수합니다. 괴물 서버이다 보니 가격은 상상을 초월합니다. 무려 300만 달러(약 42억원)에 달합니다. AI 열기가 뜨거우면 뜨거울수록, 엔비디아 수익이 높아지는 이유입니다.

하지만 이러한 고성능 설계에는 한계가 따릅니다. 고밀도 반도체들을 한 곳에 담아 두다 보니, 서버 랙(server rack) 1개가 무려 120Kw 에너지를 소모합니다. 이는 가구 120곳이 사용할 전기입니다.

높은 전기 소모는 엄청난 발열로 이어집니다. GPU 칩은 컴퓨터가 특별한 작업을 하지 않는 상황인 유휴 상태(Idle)에서는 30~50도, 작업을 할 때인 부하 상태(Load)에서는 60~85도에 달합니다. 만약 발열 관리에 실패해 내부 온도가 85도를 넘어서면, 반도체는 망가집니다.

이 때문에 성능을 꾸준히 높이면서, 발열을 제어하는 것은 매우 어려운 숙제입니다. 얼마 전에는 TSMC와 엔비디아가 충돌을 빚었다는 소식이 있었습니다.

예상보다 늦어진 양산
전류 누설을 줄이고 전력 효율을 높이는 게이트 올 어라운드(GAA, Gate-All-Around) 삼성전자 개발
더인포메이션에 따르면, 엔비디아는 올 3월 블랙웰을 발표한 직후 테스트 과정에서 TSMC가 납품한 반도체에 고장이 난 것을 발견했다고 합니다. 엔비디아는 TSMC에 고장 이유를 문의했지만, TSMC가 책임을 엔비디아 설계 탓으로 돌리면서 서로 감정이 상했다고 하는데요. 이후 두 회사 간의 긴장은 서서히 올라갑니다. 젠슨 황 엔비디아 최고경영자(CEO)가 올 6월 TSMC를 방문해 엔비디아만을 위한 전용 패키징 라인을 구축해 달라고 요구하자, TSMC 임원들이 강하게 반발한 것으로 알려진 것이죠. 서로 간 신경전이 거세지자, 웨이저자 TSMC 회장이 중재에 나설 정도였다고 합니다. TSMC와 엔비디아 갈등설은 황 CEO가 직접 공개 발표하면서 누그러졌습니다.

황 CEO는 “오류를 수정하기 위해 7가지 종류의 칩을 처음부터 설계하고, 동시에 생산에 투입해야했다”면서 “TSMC가 한 일은 수율 난항에서 회복할 수 있도록 우리를 돕고, 놀라운 속도로 블랙웰 생산을 재개하도록 도와준 것 뿐”이라고 설명했습니다.

이런 블랙웰(Blackwell) B200은 우여곡절 끝에 올 10월 대량 생산에 돌입할 수 있었습니다. 또 델과 같은 일부 엔비디아 고객사는 GB200 NVL72과 같은 서버 랙까지 이미 주문한 상태입니다. 하지만 또 발열 문제가 불거졌습니다.

발열 때문에 휘청인 반도체주
원자 구조가 벌집 격자 모양인 그래핀
서버 랙에 엄청난 발열 현상이 나타난 것인데요. 마이크로소프트와 같은 역량 있는 일부 고객사는 랙을 다시 구성할 계획을 갖고 있지만, 상당수 고객사는 블랙웰 대신 종전 버전의 칩을 구매해야 할지 고민하는 것으로 알려졌습니다. GB200 NVL72에는 너무 많은 칩이 들어있고 서로 얽히고 설켜 연결돼 있다 보니 발열이 나타난 것입니다. 엔비디아는 이후 서버 랙 설계를 다시 평가했고, 공급 업체들을 상대로 설계 변경을 요청한 것으로 알려졌습니다. GB200 NVL72 공급 지연 소식에 글로벌 반도체 주식이 휘청였던 이유가 바로 여기에 있습니다. 발열 발생→GPU 서버 공급 차질→고대역폭 메모리(HBM) 등 공급 차질→반도체주 둔화로 이어지는 것입니다.

오늘날 아마존 AWS, 마이크로소프트 애저, 구글 클라우드와 같은 클라우드 기업들은 자체 인공지능 칩인 NPU (Neural Processing Units)를 설계해 사용하면서도, 엔비디아 GPU를 대량 구매하고 있습니다. 그만큼 데이터센터용 반도체에 대한 수요가 높은 것입니다. 따라서 블랙웰 서버 일정이 늦어질 경우, 데이터센터 구축 계획 일정도 지연될 가능성이 있습니다.

발열 문제는 엔비디아뿐만은 아닙니다. 삼성전자 엑시노스, 퀄컴 스냅드래곤 810, 애플 M2 역시 발열 이슈를 한 차례씩 겪었습니다.

발열 잡을 기술을 찾아라
순다르 피차이 구글 CEO가 액침 냉각 기술을 도입한 데이터 센터 앞에서 발표를 하고 있다.
때문에 수많은 기업들이 저전력·저발열 반도체 기술 개발에 매진 중입니다. 반도체 설계 차원에서는 삼성전자가 트랜지스터의 전류를 3면이 아닌 4면에서 제어해 전류 누설을 줄이고 전력 효율을 높이는 게이트 올 어라운드(GAA, Gate-All-Around)를 개발했습니다.

신소재 개발 역시 적극적입니다. 대표적인 것이 탄소 원자가 육각형 벌집 모양의 2차원 평면을 이루는 단층 구조 신소재인 그래핀(Graphene)입니다. 두께가 0.34nm로 지금껏 발견된 가장 얇은 소재인데요. 열전달 속도가 매우 빨라 냉각 소재로 주목받고 있습니다. 삼성전자는 그래핀 방열재를, IBM은 그래핀 트랜지스터를 연구 중입니다. 또 전력 효율이 우수한 갈륨 나이트라이드(GaN)와 탄화 규소(SiC)에 대한 도입 역시 활발합니다.

후공정인 패키징 단계에서도 열관리 연구가 활발합니다. 삼성전자, TSMC, 인텔은 TSV (Through-Silicon Via)를 적극 연구중입니다. 실리콘 웨이퍼(반도체 칩)를 수직으로 관통하는 구멍(via)을 통해 전기 신호를 연결하는 기술인데요. 이를 통해 데이터 전송 속도를 높이고, 발열 문제를 해결할 수 있다고 합니다.

클라우드 기업은 데이터센터 서버 자체 열을 식히는 방법을 연구하고 있습니다. 대표적으로 서버 자체를 비전도성 액체에 담가 열을 관리하는 액침 냉각(Immersion Cooling)이 있습니다. 특히 구글은 핀란드와 싱가포르 데이터 센터에서 액침 냉각 기술을 활용 중입니다. 마이크로소프트는 한 걸음 더 나아가 액침 냉각에서 발생한 열을 인근 시설 난방 에너지로 활용하는 방안까지 개발하고 있습니다.

열을 잘 관리하는 기업이 미래 반도체 패권을 잡을 가능성이 높습니다.

■ 위클리반도체 ‘위클리반도체’는 반도체 산업에서 벌어지는 ‘핫’한 소식을 독자들이 알기 쉽게 분석해 드리는 연재물입니다. 반도체 산업을 놓고 빅테크 기업들이 벌이는 ‘칩 워(Chip War)’를 파헤칩니다. 기자 페이지를 구독하시면, 매주 금요일 제시각에 보실 수 있습니다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?