엔비디아 없이 돌아가는 중국 GPU 생태계, 한국엔 기회인가 위기인가

임선영 2026. 5. 21. 14:43
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[중국AI미래지도] 무어스레드가 CUDA의 15년을 1년에 따라잡는 방식

[임선영 기자]

 젠슨 황 엔비디아 최고경영자(CEO)가 15일 중국 베이징 둥청구 난뤄구샹에서 짜장면을 먹고 있다.
ⓒ 바이두 캡처
2026년 5월 15일 엔비디아 젠슨 황 CEO가 베이징 골목에서 짜장면을 먹다가 더우즈(중국식 발효 콩물)를 한 모금 마셨습니다. 기괴한 맛에 얼굴이 찡그러지자 주변에서 웃음이 터졌습니다.

이 장면이 밈이 되어 중국 온라인에서 화제가 되는 동안 3일 후 베이징에서 의미심장한 연례 제품 발표회가 열렸습니다. 무어스레드(Moore Threads, 摩尔线程SHA:688795). 엔비디아 중국 지사장 출신 창업자 장지엔중(张建中)이 세운 GPU 기업입니다.

젠슨 황은 이전 보도에서 "중국의 실력과 경쟁력을 과소평가하는 것은 어리석은 일이다." 라고 말했습니다. 마치 향후 벌어질 중국의 반도체 굴기를 예견하듯 말입니다. 이는 미국 뿐만 아니라 한국의 반도체 산업에도 여파가 있기에 무시하고 지나칠 수 없습니다.

1. 무어스레드는 칩을 넘어 생태계를 판다

CUDA(쿠다, 엔비디아가 개발한 GPU 병렬 컴퓨팅 플랫폼)가 AI 연산을 15년간 지배한 이유는 비단 칩 성능 때문만은 아닙니다. 생태계 락인(Lock-in, 사용자가 특정 플랫폼에서 벗어나기 어려운 구조)이 비결입니다. 수백만 개발자의 코드, 도구 체인, 손가락의 머슬 메모리까지 CUDA 위에 쌓였습니다.

플랫폼을 바꾼다는 것은 코드를 다시 쓰고 도구를 다시 배우고 조직 전체를 움직이는 일입니다. 하드웨어 구매는 주문 한 장이지만 엔지니어링 이전은 조직 동원입니다. 무어스레드는 이것을 정확히 알고 있습니다. 그래서 이번 발표회의 핵심은 신제품이 아니었습니다. MUSA(무사, 무어스레드의 GPU 컴퓨팅 플랫폼) 생태계의 전방위 완성 선언이었습니다.

무어스레드가 선언한 4단계 도약입니다.

1단계는 호환입니다. MUSA SDK 5.1.0은 CUDA 12.8에 직접 대응합니다. PyTorch 전체 3,194개 연산자를 100% 호환합니다. 대부분의 CUDA 프로그램은 코드 한 줄 수정하지 않고 무어스레드 카드에서 바로 실행됩니다. 개발자가 머슬 메모리로 작성한 코드를 MUSA가 그대로 흡수했습니다. 이전 비용이 낮을수록 시도하려는 의지가 강해집니다.

2단계는 네이티브 성능입니다. 호환이 이전 가능성이라면 네이티브 성능은 이전의 가치입니다. MATE 가속 라이브러리는 FlashAttention3(FA3, 트랜스포머 모델의 핵심 어텐션 연산 가속 기법), DeepGEMM 등 LLM에서 가장 연산을 많이 잡아먹는 핵심 연산자를 직접 공략했습니다. FA3 효율이 95%에 도달했다는 것은 가장 중요한 경로에서 CUDA와의 격차가 한 자릿수에 불과해졌다는 의미입니다.

3단계는 개방입니다. 전략적 무게가 가장 무거운 단계입니다. 글로벌 최상위 추론 엔진 SGLang(에스지랭 , AI 모델 서빙에 특화된 오픈소스 추론 프레임워크)이 MUSA를 공식 메인라인에 통합했습니다. GB200·AMD·TPU와 나란히 2026년 2분기 공식 하드웨어 지원 매트릭스에 이름을 올렸습니다. 프레임워크가 지원하지 않으면 칩이 아무리 강력해도 고립된 섬입니다. 무어스레드는 섬을 탈출했습니다. 딥시크(DeepSeek) V4·키미(Kimi) K2.6·미니맥스(MiniMax) M2.7 등 최신 LLM의 Day-0 적응도 완료했습니다. 모델이 발표되는 날 MUSA 위에서 즉시 돌아간다는 의미입니다.

4단계는 자체 진화입니다. 게임의 룰을 바꾸는 지점입니다. MUSACODE는 자연어로 MUSA 코드를 직접 생성하는 AI 프로그래밍툴입니다. 30일 만에 1만2,015개 연산자를 자동 생성하고 테스트했습니다. Automusify Skill은 무인 자동 코드 이식 에이전트입니다. 상위 100개 AI 가속 라이브러리를 100% 자동으로 MUSA에 이식합니다. 과거 생태계 구축이 엔지니어들이 밤을 새우는 농경이었다면 지금은 AI 에이전트가 조립 라인을 돌리는 산업혁명입니다.

MUSA가 AI에 서비스를 제공하고 AI가 역으로 MUSA를 가속합니다. 플라이휠(Flywheel, 한 번 돌기 시작하면 자체 가속되는 순환 구조)이 돌기 시작했습니다. 무어스레드는 엔비디아를 단일 칩으로 따라잡는 것이 아니라 생태계 구축 속도 자체를 가속화하는 메타 전략을 구사하고 있습니다.

2. 엔비디아와의 성능 격차, 숫자가 아니라 전략으로 읽어야 하는 이유

MTT S5000과 엔비디아 H100을 단순 비교하면 피크 FP8 성능에서 MTT S5000이 1,000 TFLOPS 이상, H100이 약 3,958 TFLOPS입니다. 피크 성능으로는 H100의 약 25% 수준입니다. 메모리 대역폭은 MTT S5000이 약 1.5 TB/s 추정, H100은 3.35 TB/s로 2배 이상 차이가 납니다.

그런데 이 숫자를 그대로 읽으면 안 됩니다.
실제 LLM 미세조정(Fine-tuning — 사전학습된 모델을 특정 과제에 맞게 추가 학습하는 과정) 작업에서 MTT S5000이 H100을 능가한 사례가 존재합니다. 1,400만 스텝 무중단 학습에 성공했고 손실(Loss) 곡선 편차가 엔비디아 기준 대비 0.82% 이내였습니다. Dense 모델 MFU(Model FLOPS Utilization — 실제 모델 연산에 활용된 GPU 성능 비율) 60%, MoE(Mixture of Experts — 여러 전문가 모델을 조합해 효율적으로 활용하는 아키텍처) 40%를 달성한 만 장 클러스터가 상용화됐습니다.

AI 학습의 실제 병목은 피크 TFLOPS가 아닙니다. 메모리 대역폭·통신 오버헤드·소프트웨어 최적화의 조합이 실제 성능을 결정합니다. 무어스레드는 열세인 하드웨어를 극단적인 소프트웨어 최적화로 보완해 실제 사용 경험의 접점을 만들어내고 있습니다.

메모리 대역폭 2배 격차는 여전히 구조적 약점입니다. 수천억 파라미터 이상 모델의 사전학습(Pretraining)에서는 이 격차가 직접적으로 드러납니다. GPU를 더 많이 연결하거나 MoE 구조로 우회하는 전략이 현재의 해법입니다.

차세대 화강(花港) 아키텍처 기반 AI 칩 화산(华山)은 HBM3e(고대역폭 메모리 3세대 확장판) 탑재로 이 격차를 상당 부분 해소할 것으로 예고됐습니다. 무어스레드의 전략은 단일 칩의 승리가 아니라 클러스터 단위의 총소유비용(TCO — Total Cost of Ownership, 구매·운영·유지보수를 합산한 실제 비용) 승리입니다.

3. 데이터센터에서 피지컬AI까지

그런데 MUSA 생태계가 진짜 무서운 이유는 클라우드 데이터센터에만 머물지 않는다는 점입니다. 무어스레드는 이번 발표회에서 클라우드·엣지·온디바이스 세 층위를 하나의 MUSA로 관통하는 전략을 선명하게 드러냈습니다.

피지컬 AI 영역이 핵심입니다. 발표회의 압권은 로봇개 샤오페이(小飞)가 도움닫기 없이 공중제비를 돌고 착지하는 장면이었습니다. 이 동작은 MT Lambda 시뮬레이션 플랫폼에서 MUSA 위에 올라간 물리 엔진 AlphaCore·광자 엔진 MT Photon·3DGS 렌더링·Torch-MUSA가 하나의 칩 안에서 데이터 복사 없이 동시에 실행된 결과입니다.

물리 시뮬레이션·그래픽 렌더링·AI 추론을 각각의 하드웨어에 분산하면 데이터 전송 병목이 발생합니다. 무어스레드는 이 세 가지를 단일 GPU에서 처리했습니다. 로봇 훈련 속도가 CPU 방식 대비 40배 빨라졌습니다.

중국 지원 연구원(智源研究院, 베이징 AI 연구소)과 협력한 RoboBrain 2.5 엔드투엔드 훈련 결과는 엔비디아 H100 클러스터와 오차 0.62% 이내였습니다. 로봇 두뇌의 올인원 플랫폼을 목표로 하는 무어스레드에게 피지컬 AI는 MUSA 생태계의 최전선입니다.

AI 노트북 AIBOOK은 1인 창업의 플랫폼입니다. AIBOOK은 무어스레드 GPU를 탑재한 개인용 AI 컴퓨팅 기기입니다. OpenClaw(오픈클로)를 사전 탑재했으며 동시에 12개의 지능형 에이전트를 구동합니다. 발표회 현장에서 연구원이 5명의 디지털 직원을 동시에 가동해 몇 분 만에 신제품 기획서 한 세트를 완성하는 장면이 시연됐습니다.

장지엔중 CEO는 이렇게 말했습니다. "젊은이라면 누구든 AIBOOK 한 대로 1인 회사를 차릴 수 있다." AIBOOK은 클라우드 서버 없이도 AI 에이전트 팀을 로컬에서 운용하는 온디바이스 AI 컴퓨팅의 중국식 표준을 제시합니다.

스마트폰 연계는 AICUBE와 ZTE 협력으로 이미 현실입니다. AICUBE는 지능형 에이전트·AI PC·AI NAS(네트워크 연결 스토리지)를 손바닥만 한 알루미늄 큐브에 통합한 엣지 디바이스로 6월 18일 JD.COM 예약 판매를 시작합니다.

스마트폰과의 연계는 ZTE 협력을 통해 더 직접적으로 드러납니다. ZTE 누비아 Z80 Ultra 스마트폰에 MUSA 기반 경량 AI가 탑재됐습니다. 클라우드 서버 없이 스마트폰 자체에서 음성 명령을 해석하고 앱을 넘나드는 멀티태스킹을 수행합니다. 텐센트 클라우드와의 협력으로 차세대 지능형 운전석에도 MUSA 모델이 탑재됩니다. 올해 안에 100만 대 이상의 차량 출하가 목표입니다.

이것이 무어스레드가 그리는 MUSA의 전체 지형도입니다. 만 장짜리 클라우드 클러스터에서 시작해 AI 노트북을 거쳐 스마트폰·자동차·로봇까지. 하나의 MUSA 위에서 모든 단말이 동일한 생태계로 연결됩니다. 개발자는 코드를 한 번 쓰면 데이터센터에서 로봇 관절까지 동일한 환경에서 구동됩니다. 이것이 엔비디아가 아직 완성하지 못한 풀스택 피지컬 AI 생태계의 중국판 버전입니다.
 무어 스레드의 MTT S80 그래픽 카드.
ⓒ 무어스레드
4. 삼성과 하이닉스에게 지금은 고객이지만

무어스레드 MTT S5000에 탑재된 HBM2e는 현재 삼성전자와 SK하이닉스 제품이 주력입니다. SK하이닉스의 중국 유통 파트너 샹농신촹(香农芯创)을 통해 조달됩니다. 중국에 판매되는 삼성전자 HBM은 전량 한국 천안·평택에서 생산된 후 수출되는 구조입니다.

삼성전자와 SK하이닉스의 HBM 시장 구조는 지금 극명하게 갈리고 있습니다. SK하이닉스는 미국 시장 비중이 70% 이상인데 반해 삼성전자는 중국 비중이 상대적으로 높습니다. HBM2e 중심으로 중국 현지 GPU 업체에 공급하는 구조입니다.

무어스레드는 지금 한국산 HBM에 의존하고 있으나 무어스레드의 존재 이유 자체가 공급망 탈미국화입니다. 그 논리는 필연적으로 탈한국화로 이어집니다. 무어스레드는 이미 중국산 HBM과의 기술적 호환성을 확보한 후 공급망 전환 준비가 끝나 있습니다. 그 자리에 CXMT(창신스토리지, 长鑫存储 — 중국 최대 DRAM 제조사)가 기다리고 있습니다.

5. 중국산 HBM이 쏟아지는 날

CXMT는 올해 하반기로 예상되는 IPO로 약 6조 원을 조달해 HBM 생산 라인 확충에 투입할 계획입니다. 중국 정부도 약 75조 원 규모의 반도체 국부펀드 3기 투자를 본격 집행 중입니다. 돈과 시간이 결합되면 기술 격차는 좁혀집니다. 폭락은 없지만 구조 재편은 옵니다. 그 재편의 속도를 결정하는 것이 CXMT의 HBM3 수율입니다. 그 수율의 임계점을 넘는 순간이 한국 반도체 산업의 다음 변곡점입니다.

6. 골든타임 2027과 우리의 선택

무어스레드가 차세대 화산 칩으로 전환하는 2026년 말~2027년 초. CXMT가 HBM3 양산을 본격화하는 시점이 겹칩니다. 중국산 HBM이 충분한 수율과 성능을 확보하면 무어스레드의 한국산 HBM 수요는 구조적으로 감소합니다.

단기적으로 기회는 분명 존재합니다. 중국 AI 반도체 시장은 2030년까지 연 35% 성장이 전망됩니다. 무어스레드의 GPU 생산량이 늘수록 HBM 수요도 동반 상승합니다. 저사양 GPU일수록 HBM 의존도가 높아지는 경향이 있어 과도기에는 한국에 유리한 구조입니다. 그러나 이 수요가 영원하지 않다는 전제는 늘 감안해야 합니다.

무어스레드는 단순한 엔비디아의 아류가 아닙니다. AI를 이용해 자신의 생태계 구축 속도를 스스로 가속하는 자체 진화 시스템을 만들었습니다. CUDA가 15년 걸린 것을 MUSA는 훨씬 짧은 시간에 추격하려 합니다. 그 추격의 연료로 한국산 HBM을 쓰고 있습니다. 그리고 중국산 HBM이 곧 양산됩니다. 중국의 GPU 독립은 한국에 지금은 기회일 수 있으나 그 기회의 만료일은 2027년입니다.

덧붙이는 글 | 임선영씨는 중국전문가로 <중국경제미래지도>의 저자입니다. 이 글은 본인의 페이스북에도 올렸습니다.

Copyright © 오마이뉴스. 무단전재 및 재배포 금지.