"엔비디아 칩 오작동에 빅테크 1년간 '진땀'"…최근에야 진정

권영전 2026. 2. 7. 07:43
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI) 칩 1위 기업인 엔비디아의 최신 그래픽처리장치(GPU) '블랙웰'이 서버 구축 과정에서 문제를 일으켜 거대 기술기업들이 때아닌 냉가슴을 앓은 것으로 나타났다.

오픈AI와 메타 등 주요 AI 기업들은 지난해 내내 블랙웰 기반 AI 서버를 구축하고 최적화하는 과정에서 기술적 난관 때문에 어려움을 겪었다고 미 정보기술(IT) 전문매체 디인포메이션이 내부 소식통을 인용해 6일(현지시간) 보도했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

환불·신형 교체로 사태 수습…"AI 수요 폭증에 게임 칩은 올해 안낸다"
젠슨 황 엔비디아 최고경영자(CEO) [로이터=연합뉴스 자료사진. 재판매 및 DB 금지]

(샌프란시스코=연합뉴스) 권영전 특파원 = 인공지능(AI) 칩 1위 기업인 엔비디아의 최신 그래픽처리장치(GPU) '블랙웰'이 서버 구축 과정에서 문제를 일으켜 거대 기술기업들이 때아닌 냉가슴을 앓은 것으로 나타났다.

오픈AI와 메타 등 주요 AI 기업들은 지난해 내내 블랙웰 기반 AI 서버를 구축하고 최적화하는 과정에서 기술적 난관 때문에 어려움을 겪었다고 미 정보기술(IT) 전문매체 디인포메이션이 내부 소식통을 인용해 6일(현지시간) 보도했다.

블랙웰 이전의 엔비디아 칩은 납품 후 몇 주 안에 쉽사리 설치하고 가동할 수 있었다는 게 이들 기업의 입장이다.

문제는 칩 자체의 성능이 아니라 이를 대규모로 연결해 하나의 거대한 시스템처럼 작동하도록 하는 과정의 복잡성 때문에 일어났다.

72개의 '그레이스 블랙웰'(GB) 칩을 잇는 과정에서 발열과 연결 관련 문제가 발생한 것이다.

연결된 칩 가운데 하나만 오작동을 일으켜도 칩 수천 개로 구성된 전체 클러스터가 장애를 일으키거나 중단되는 사례도 있었다.

기업들은 이와 같은 장애로 중단된 작업을 마지막 저장 시점에서 다시 시작하는 데만 수천∼수백만 달러의 비용을 들여야 했다.

AI 데이터센터를 구축하는 오라클은 이와 같은 블랙웰 칩 구축의 기술적 어려움 등 때문에 약 1억 달러(약 1천400억원)의 손실을 감수해야 했다.

텍사스주 데이터센터의 블랙웰 서버에 대해 고객사인 오픈AI가 한동안 승인을 늦췄기 때문이다.

엔비디아는 지난해 불만을 제기한 고객사에 부분 환불을 해주거나, 할인을 제공하는 등 달래기에 나서기도 했다.

이 같은 문제는 지난해 3분기에 관련 문제를 개선한 새 버전 'GB300'을 내놓은 이후에야 수습되기 시작했다.

오픈AI 등 고객사들은 아직 받지 못한 기존 칩을 새 버전으로 교체하고 있다고 소식통은 전했다.

엔비디아는 출시가 예정된 신형 '베라 루빈' 칩에도 이와 같은 개선 사항을 적용했다.

한편 엔비디아는 AI 칩 수요 폭증에 따른 공급 부족 등으로 올해 게임용 GPU는 출시하지 않기로 한 것으로 알려졌다.

게임용 칩 설계로 사업을 시작한 엔비디아가 게임용 GPU를 내놓지 않은 것은 30여년 만에 처음이다.

comma@yna.co.kr

▶제보는 카톡 okjebo

Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지