딥시크가 키운 천재 소녀가 딥시크를 이겼다

[중국AI미래지도] 샤오미 뤄푸리의 MiMo-V2.5 발표와 중국 반도체 독립 선언

[임선영 기자]

▲ 샤오미의 AI모델 MiMo-V2.5-Pro 개발을 이끈 천재소녀 뤄푸리.

딥시크 성공 신화를 이끈 천재소녀 뤄푸리(罗福莉)가 오늘 딥시크를 이겼습니다.

1995년 쓰촨성 소도시 출신. 고등학교 때까지 컴퓨터를 제대로 접해본 적 없던 그녀는 대학 진학 후 2019년 NLP 학술대회 ACL에서 단 한 해에 논문 8편을 발표하며 처음 주목받았습니다. 알리바바 다모 아카데미(DAMO Academy)를 거쳐 딥시크에 합류했고 R1 모델이 전 세계를 충격에 빠뜨렸을 때 발표 자리에 직접 나서 CEO보다 더 유명해졌습니다.

작년 11월 레이쥔 샤오미 회장이 연봉 약 20억 원을 제시하며 영입했고 불과 5개월만인 4월 28일 그녀가 이끄는 MiMo-V2.5-Pro가 딥시크 V4-Pro를 벤치마크에서 넘어서면서 화제가 되는 중입니다.

1. 딥시크 출신들이 제2의 딥시크를 만들다.

뤄푸리만이 아니라 딥시크 R1의 핵심 저자 궈다야(郭达雅)는 바이트댄스로, 딥시크 LLM 핵심 저자 왕빙쉬안(王炳宣)은 텐센트로, 뤄푸리는 샤오미로 갔습니다. 딥시크가 키운 인재들이 중국 AI 업계 전체로 퍼졌고 이제 그들이 각자의 자리에서 딥시크를 뛰어넘는 모델을 만들고 있습니다. 경쟁이 생태계가 되고 생태계가 전체 수준을 끌어올리는 구조입니다.

이번 4월 딥시크-V4, 키미 K2.6, MiMo-V2.5-Pro가 같은 주에 쏟아지면서 이제 중국AI는 자국 모델 간 경쟁이 본격화됐습니다. 성능 뿐만 아니라 가격 경쟁이 치열해지면서 중국 AI 시장이 본격적으로 재편되는 중입니다.

▲ 샤오미의 MiMo 공식 홈페이지

2. MiMo-V2.5-Pro 성능

MiMo-V2.5-Pro의 스펙을 구체적으로 살펴보면 놀랍습니다.

총 파라미터 1.02조(1.02T), 활성화 파라미터 420억(42B). 혼합전문가(MoE, Mixture of Experts) 아키텍처에 혼합 어텐션(Mixed Attention) 구조를 적용했습니다. 로컬 슬라이딩 윈도우 어텐션(SWA, Sliding Window Attention)과 글로벌 어텐션(GA, Global Attention)을 6:1 비율로 교차 배치했습니다.

윈도우 크기 128토큰으로 장문 컨텍스트에서 키-값 캐시(KV Cache) 저장 공간을 기존 대비 7배 절감하면서 성능을 유지합니다. 다중 토큰 예측(MTP, Multi-Token Prediction) 모듈이 기본 통합되어 출력 처리량이 약 3배 향상됐습니다. 사전훈련 데이터는 27조(27T) 토큰, FP8 혼합 정밀도, 기본 시퀀스 32K, 컨텍스트 100만 토큰입니다.

벤치마크 결과 GDPVal-AA(Elo)와 클로-이밸(Claw-Eval, pass^3) 등 주요 에이전트 평가에서 딥시크 V4-Pro를 넘어섰습니다. SWE-Bench Pro, Terminal-Bench 2.0에서도 최상위권을 기록했습니다.

Claude Opus 4.6과 동급 이거나 조금 아래 수준으로 평가되는데 가격은 API 입력 기준 100만 토큰당 1달러 오퍼스 4.6 가격 대비 5분의 1입니다.

3. 추론 단계 반도체 독립선언... 자국산 칩 5, 글로벌 칩2 Day 0 적응

그런데 이번 발표에서 벤치마크보다 더 중요한 사실은 오픈소스 공개 당일 5개 자국산 칩과 AMD·아마존 클라우드 Trainium2 동시에 추론이 가능하다는 선언입니다. 먼저 구분이 필요한데 훈련(Training)은 모델을 학습시키는 단계입니다.

엄청난 연산이 필요하고 엔비디아 GPU가 여전히 절대적입니다. 추론(Inference)은 완성된 모델을 실제 서비스에 쓰는 단계로 사용자 질문에 답변을 생성하는 작업입니다. MiMo-V2.5의 Day 0 적응은 바로 이 추론 단계입니다. 첫날 동시 적응을 완료한 칩 목록은 다음과 같습니다.

1. 알리바바 핑터우거(平头哥, Alibaba T-Head) - 전우(真武, Zhenwei) 810E 칩 기반 풀스택 자체 개발 AI 소프트웨어 스택 심층 적응.
2. 바이두 쿤룬신(百度昆仑芯, Baidu Kunlun) - 하위 레벨 연산자 최적화와 소프트웨어·하드웨어 협력 가속화.
3. 쉐이위안커지(燧原科技, Enflame) - 자체 개발 위수안(驭算, TopsRider) 소프트웨어 스택, L600 칩 전량 적응.
4. 무시(沐曦, MetaX) - 시윈(曦云, Xiyun) C 시리즈, MXMACA 소프트웨어 스택, Triton 문법 기반 GPU 명령어 엔드투엔드 지원.
5. 톈수즈신(天数智芯, Tianshu Zhixin) - 자체 개발 범용 GPU 아키텍처와 풀스택 소프트웨어 스택 기반. 심층 연산자 최적화·비디오 메모리 스케줄링 조정·추론 가속화 완료. 다중 카드 병렬 가속과 메모리 접근 병목 최적화로 고강도 추론 부하 원활 지원.

이 밖에
AMD - ROCm 오픈소스 소프트웨어 스택.
아마존 클라우드 Trainium2 - Neuron SDK+vLLM 추론 프레임워크에 적응하며 오픈소스 출시 즉시 글로벌 유저가 사용 가능하도록 작업을 완료한 것입니다.

이는 미국의 기술 봉쇄에 맞선 중국의 반도체 독립이 본격화 됨을 시사합니다. 딥시크 V4가 화웨이 어센드 950PR, 무어스레드에서 추론을 선언했고 MiMo-V2.5는 한 발 더 나아가 5개 자국산 칩에서 동시 추론을 가능하게 만들었습니다.

▲ 샤오미 MiMo 백조토큰 무료 프로젝트

4. 중국 AI 파괴적인 가격 전쟁의 시작

샤오미는 MiMo-V2.5-Pro 오픈소스 공개와 함께 30일간 100조 토큰을 무료로 풀겠다고 선언했습니다. 한 사람이 하루에 10만 토큰씩 쓴다고 해도 100만 명이 100일 동안 쓸 수 있는 양입니다. 개발자 생태계 전체를 단숨에 흡수하겠다는 전략입니다. 4월 한 주 동안 딥시크 V4, 키미 K2.6, MiMo-V2.5-Pro가 오픈소스로 출시되었으며 모두 조 단위 파라미터에 컨텍스트 100만 토큰입니다. 그리고 모두 국산 칩 추론 적응을 선언했습니다.

이제 중국 AI 시장은 자국 모델 간 경쟁이 시작됐고 성능과 가격 경쟁이 동시에 벌어지면서 중국 AI 시장은 빠르게 재편되고 있습니다.

뤄푸리는 한 인터뷰에서 "저는 천재가 아닙니다. 그저 조용히 일하고 싶습니다"라고 말했고 오늘 조용히 딥시크를 이겼습니다. 경쟁이 생태계가 되고 생태계가 속도를 만들고 그 속도가 글로벌 AI지형을 바꾸는 중입니다.

덧붙이는 글 | 임선영씨는 중국전문가로 <중국경제미래지도>의 저자입니다. 이 글은 본인의 페이스북에도 올렸습니다.