피 튀기는 중국 로봇 3파전, 이 회사의 전략에 주목하는 이유

[중국AI미래지도] 갤럭시 제너럴 LDA-1B, 피지컬 AI의 게임을 바꾸다

[임선영 기자]

휴머노이드 로봇 업계에는 정제된 데이터만 학습시켜야 로봇이 똑똑해진다는 상식이 있습니다. 쓸모없는 데이터, 저화질 영상, 라벨 없는 기록은 버려야 했습니다. 그런데 2026년 4월 게임이 법칙이 바뀌었습니다.

갤럭시 제너럴(银河通用, Galbot)이 베이징대·칭화대 연구팀과 공동으로 개발한 LDA-1B(Latent Dynamics Action Model, 잠재 동역학 행동 모델)가 로봇공학 최고 권위 학회 RSS(Robotics: Science and Systems) 2026에 정식 채택됐습니다.

엔비디아가 함께 참여한 점도 주목할 만합니다. 연구팀은 저품질 데이터를 30% 추가했더니 오히려 작업 성공률이 10% 상승했다는 결과를 발표했습니다. 딥시크가 적은 비용으로 뛰어난 성능을 증명했다면 피지컬 AI에서 갤럭시 제너럴은 버려진 데이터로 더 나은 성능을 증명했습니다.

▲ 갤럭시 제네럴의 창업자 왕허.

1. 갤럭시 제너럴의 독보적 경쟁력

2026년 현재 중국 휴머노이드 로봇 시장은 뚜렷한 3파전 구도입니다.
유니트리(Unitree)는 백덤블링 등 모션 제어(Motion Control) 분야의 독보적 기술력으로 2025년 글로벌 출하량 1위(5,500대 이상)를 기록했습니다. 애지봇(Agibot)은 2025년 출하량 5,168대로 시장 점유율 39%를 차지하며 연 매출 10억 5,000만 위안(한화 약 2,299억 원)을 달성하며 가장 빠른 상용화 속도를 보여주고 있습니다.

그런데 갤럭시 제너럴은 이들과 전혀 다른 전략 즉 피지컬 AI모델 중심으로 발전 중입니다. 2025년 출하량은 약 1,200대로 두 회사에 못 미치지만 기업가치는 200억 위안(한화 약 4조 3,800억 원)으로 유니트리(127억 위안)와 애지봇(150억 위안)을 크게 웃돕니다. 창업 3년 만에 누적 69억 6,000만 위안(한화 약 1조 5,262억 원)을 유치했습니다. 중국의 투자 시장은 이제 로봇의 몸체가 아닌 두뇌에 가치를 높이 평가하고 있는 것입니다.

갤럭시 제너럴 창업자 왕허(王鹤, Wang He)는 1992년생입니다. 칭화대 전자공학과를 졸업하고 스탠퍼드대에서 박사를 받았습니다. 귀국 후 베이징대 조교수·박사지도교수로 재직하며 2023년 갤럭시 제너럴을 창업했습니다. 그는 "로봇의 궁극적 목표는 볼 수 있고 이해할 수 있고 도울 수 있는 가족의 새 구성원이 되는 것"이라고 말합니다.

2. LDA-1B : 버려진 데이터가 자산이 되는 방식

기존 피지컬 AI의 주류 접근법은 두 갈래였습니다.
첫 번째는 VLA(Vision-Language-Action)계열입니다. 피지컬 인텔리전스(Physical Intelligence)의 π 시리즈가 대표적입니다. 보고 들은 정보를 즉시 행동으로 변환합니다. 빠르지만 중력·마찰·무게중심 같은 물리적 제약을 내재적으로 이해하지 못합니다. 엔비디아(NVIDIA) GR00T N1.6·N1.7도 VLA 모델입니다. 시각·언어 정보를 행동으로 변환하되 Cosmos 월드 모델을 두뇌로 활용해 두 접근법을 융합하는 방향으로 진화하고 있습니다.

두 번째는 월드 모델(World Model) 계열입니다. 물리 법칙과 3D 공간을 이해하는 것이 핵심입니다. 엔비디아의 Cosmos, 구글 딥마인드의 Genie 3, 그리고 AI의 대모 리페이페이(Fei-Fei Li) 스탠퍼드 교수가 창업한 월드랩스(World Labs)가 이 방향을 주도하고 있습니다. 월드랩스는 2026년 1월 World API를 출시하고 엔비디아·AMD로부터 10억 달러(한화 약 1조 3,800억 원) 투자를 유치하며 공간 지능(Spatial Intelligence)의 상업화를 선언했습니다. 메타를 퇴사한 얀 르쿤(Yann LeCun)도 AMI 랩스를 창업하며 이 방향의 발전에 기여하고 있습니다.

그런데 두 접근법의 공통 난제는 데이터 장벽입니다. 둘 다 고품질 전문가 시연 데이터만 선별적으로 학습하고 저품질 데이터와 라벨 없는 영상은 버립니다.

LDA-1B는 바로 이 지점에서 게임의 규칙을 바꿉니다.
WAM(World-Action Model) 프레임워크는 VLA와 월드 모델의 이분법을 단일 잠재 공간(latent space) 안에서 융합합니다. 행동 정책(Action Policy), 순방향 동역학(Forward Dynamics), 역방향 동역학(Inverse Dynamics), 시각 예측(Visual Forecasting) 네 가지 임무를 하나의 네트워크에서 동시에 학습합니다.

중요한 혁신은 세 가지입니다.
첫째, 이종 데이터의 차등적 활용입니다. 3만 시간 이상의 이질적 데이터(EI-30k)가 투입됩니다. 가상 시뮬레이션과 실제 촬영, 인간 영상과 로봇 기록, 고해상도와 저해상도, 주석 있는 시연과 없는 원시 영상이 모두 포함됩니다.

LDA-1B는 이 데이터를 동일하게 학습하지 않습니다. 고품질 데이터는 정책 학습과 동역학 학습 양쪽에 활용하고 저품질 데이터는 정책 학습에서는 배제하되 물리 법칙이 드러나는 동역학 학습에 집중 투입합니다. 라벨 없는 순수 영상은 시각 예측 임무에만 씁니다. 실험 결과에서 저품질 데이터를 30% 추가하자 작업 성공률이 10% 상승했습니다.

둘째, DINO 기반 의미론적 잠재 표현입니다. 로봇이 "사과를 집는다"고 할 때 기존 세계 모델은 다음 장면의 픽셀 하나하나를 예측합니다. 배경이 바뀌거나 조명이 달라지면 모델은 혼란에 빠집니다. 사과가 중요한 것인지 배경의 벽지 무늬가 중요한 것인지 구분하지 못하기 때문입니다. 막대한 연산을 배경 텍스처에 낭비합니다.

반면 LDA-1B는 픽셀이 아니라 DINO 특징 공간에서 미래 상태를 예측합니다. DINO는 메타(Meta)가 개발해 오픈소스로 공개한 시각 특징 추출 모델입니다. 갤럭시 제너럴은 이 기술을 로봇 피지컬 AI에 적용해 픽셀 예측을 DINO 특징 공간으로 대체하면 스케일링 법칙이 작동한다는 것을 세계 최초로 증명했습니다. DINO는 사물의 형태와 구조에 집중하고 배경 변화는 무시합니다. 사진을 보는 것이 아니라 사물의 의미와 위치 관계를 보는 것입니다. 사과가 어디 있고 손이 어떻게 움직여야 하는지의 구조를 파악합니다.

이 차이가 얼마나 결정적인지 소거 실험이 증명합니다. DINO 표현을 기존 방식인 VAE(Variational Autoencoder, 변분 오토인코더) 픽셀 예측으로 교체하자 작업 성공률이 55.4%에서 20.0%로 폭락했습니다. VAE 방식은 장면 전체를 픽셀로 압축하기 때문에 물체의 위치와 형태 정보가 배경 정보와 뒤섞입니다. 로봇이 "사과가 오른쪽으로 5cm 이동한다"는 물리적 변화를 학습해야 하는데 픽셀 방식에서는 그 변화가 조명 변화, 그림자 변화, 배경 변화와 뒤엉켜 구분이 불가능합니다.

결국 모델은 물리 법칙이 아니라 화면의 색상 패턴을 학습하게 되므로 처음 보는 환경이나 물체가 나오면 기억이 붕괴되는 것입니다. 반면 DINO 공간에서는 배경이 바뀌어도 사과의 위치와 형태 정보는 그대로 유지됩니다. 물리적 변화만 순수하게 학습할 수 있습니다. DINO는 피지컬 AI에서 스케일링 법칙이 작동하기 위한 구조적 전제 조건입니다. DINO는 메타가 만든 망원경이라면 갤럭시 제너럴은 그 망원경으로 아무도 보지 못했던 별을 처음 발견했습니다.

셋째, 멀티 모달 디퓨전 트랜스포머(MM-DiT)입니다. 동작 토큰 스트림과 시각 토큰 스트림을 비동기적으로 처리하면서 어텐션 메커니즘을 공유합니다. 행동을 예측할 때 미래 세계의 변화를 참조하고 세계를 예측할 때 행동의 결과를 동시에 고려합니다. 인과 관계가 신경망 구조 자체에 내장됩니다.

RoboCasa-GR1 벤치마크에서 55.4%를 기록하며 엔비디아 GR00T-N1.6(47.6%)과 피지컬 인텔리전스 π 0.5를 넘어섰습니다. 접촉이 많은 과제에서 최대 21%p, 정교한 조작 과제에서 48%p, 장기 과제에서 23%p 격차를 벌렸습니다. 사전 학습에 포함되지 않았던 유니트리 G1 휴머노이드 로봇을 단 1시간의 파인튜닝 만으로 구동할 수 있었습니다.

▲ 갤럭시 제네럴의 휴머노이드 로봇.

3. 피지컬 AI의 스케일링 법칙

LLM분야에서 GPT-2의 진정한 의미는 성능이 아니었습니다. 고품질 데이터만 선별해서 학습한다는 패러다임을 깨고 데이터를 가리지 않고 더 많이 학습할 수록 더 똑똑해진다는 스케일링 법칙이 작동함을 증명한 것이 혁명의 시작이었습니다. 피지컬 AI는 현재까지 그 임계점을 넘지 못했습니다. 현실 세계의 로봇 데이터는 규모가 작고 형태가 제각각이며 품질 편차가 크기에 소량의 정제된 데이터로 정밀하게 학습하는 수공업 상태에 있었습니다.

LDA-1B는 이 장벽을 방법론적으로 무너뜨렸습니다. 5,000시간에서 30,000시간으로 데이터 규모를 늘리자 행동 예측 오차가 일관되게 감소하는 스케일링 곡선이 확인됐습니다. 피지컬 AI에서도 언어 모델과 동일한 스케일링 법칙이 가동되기 시작한 것입니다. GPT-2가 대규모 언어 모델 시대의 신호탄이었듯 LDA-1B는 "인터넷의 동영상을 틀어놓기만 해도 로봇이 물리 세계를 학습하는 시대"의 개막을 알리는 신호탄입니다.

4. 중국 특유의 오픈소스 전략

갤럭시 제너럴은 LDA-1B를 전면 오픈소스로 공개했습니다. 이것이 단순한 코드 공유가 아닌 이유가 있습니다. 현재 글로벌 피지컬 AI 시장은 미국 주도의 폐쇄형 생태계가 지배하고 있습니다. 피지컬 인텔리전스(Physical Intelligence)의 π 0.7은 2026년 4월 16일 공개됐습니다. 훈련하지 않은 과제를 수행할 수 있는 능력을 선보였고 현재 110억 달러(한화 약 15조 1,800억 원) 기업가치로 신규 투자 협상 중입니다. 클로즈드소스입니다.

피겨 AI(Figure AI)는 초기 OpenAI와 협력했으나 파트너십을 종료하고 Helix VLA 모델을 완전히 자체 개발했습니다. BMW 공장에 실제 배치해 90,000개 이상의 부품을 처리하며 상용화를 입증했고 기업가치는 390억 달러(한화 약 53조 8,200억 원)입니다. 이들은 공통적으로 거대한 자본과 폐쇄적 생태계를 무기로 삼습니다.

갤럭시 제너럴은 정반대의 선택을 했습니다. "이종 데이터를 통합 학습할 수 있는 모델 아키텍처" 자체를 공공재로 공개했습니다. 소수 빅테크가 데이터와 모델을 수직 독점하는 구조에 균열을 내는 전략입니다. 이미 알리바바 다모아카데미(DAMO Academy)의 린브레인(RynnBrain), 바이두의 ABot-M0 등 중국 주요 플랫폼 기업들이 오픈소스 피지컬 AI 모델을 연이어 공개하고 있습니다. 특히 이번 갤럭시 제너럴의 LDA-1B가 RSS라는 최고 권위 학회를 통해 공개됐다는 점은 상징적입니다.

갤럭시 제너럴은 이제 현장에서 실력을 입증하고 있습니다. 2026년 춘절 CCTV 무대에서 Galbot G1은 일약 스타덤에 올랐으며 100곳의 약국에 배치된 로봇은 누적 30만 건 이상의 의약품 판매를 처리했고 중국 최초의 로봇 약사 자격을 취득했습니다. 닝더스다이(宁德时代, CATL) 배터리 공장에는 운반 로봇 Galbot S1이 투입되어 실제 공정을 수행하고 다임러·장청자동차 등 글로벌 제조업체와도 협력 중입니다.

이제 머지않아 휴머노이드 로봇이 유튜브를 보며 학습할 수 있는 시대가 도래할 것으로 보입니다.

덧붙이는 글 | 임선영씨는 중국전문가로 <중국경제미래지도>의 저자입니다. 이 글은 본인의 페이스북에도 올렸습니다.

오마이뉴스에서 직접 확인하세요. 해당 언론사로 이동합니다.