피지컬 AI를 먹여 살리는 합성데이터 [이승현의 AI 네이티브]

휴머노이드 영상이 쏟아지고 있다. 두 발로 걷고, 컵을 집고, 문을 연다. 사람들은 그 로봇 손과 팔의 정교함에 감탄한다. 하지만 영상은 다가 아니다. 정교한 손은 이미 만들기술이 있고, 토크도, 관절의 자유도도, 촉각 센서도 사오거나 복제할 수 있다.

정작 어려운 것은 그 손을 언제, 어떻게, 얼마만큼 움직여야 하는가에 대한 판단이다. 똑같은 하드웨어를 얹어도 어떤 로봇은 달걀을 깨지 않고 집고, 어떤 로봇은 깨뜨린다. 그 차이를 가르는 것은 관절이 아니라 그 몸이 쌓은 경험, 곧 데이터다. 바꾸어 말하면, 피지컬 AI(Physical AI)의 진짜 병목은 하드웨어가 아니라는 말이다. 액추에이터도, 관절의 자유도도 아니다. 하지만 항상 주목받는, 그리고 경쟁하는 무대는 늘 하드웨어다. 눈에 보이기 때문이다. 더 가벼운 손, 더 강한 토크, 더 인간을 닮은 보행 등이다. 요즘 보이는 휴머노이드 영상도, 투자도 그 부분을 주목하고 있다. 그런데, 그 로봇 몸에 주입된 경험의 양과 질은 영상에 잡히지 않는다. 우리가 보이는 스펙터클에 시선을 빼앗기는 동안, 산업의 진짜 승부는 보이지 않는 데이터의 영역에서 갈리고 있다.

LLM은 인터넷이라는 거대한 텍스트 더미 위에서 커졌다. 인류가 수십 년간 쌓아둔 문장이 그대로 학습 자원이 됐다. 그러나 물리세계에는 그런 공짜 코퍼스가 없다. 로봇이 "컵을 1만 번 집어 본 경험"은 어디에도 저장되어 있지 않다. 직접 시켜야 한다. 그런데 현실에서 로봇을 1만 번 움직이는 일은 느리고, 비싸고, 때로 위험하다. 피지컬 AI의 데이터는 인터넷에서 긁어올 수 없는, 본질적으로 희소한 자원이다. 여기서 발상의 전환이 일어난다. 현실에서 충분히 모을 수 없다면, 생성하면 된다. 바로 합성데이터(Synthetic Data)다.

디지털 트윈, 데이터를 찍어내는 공장

핵심 기반은 디지털 트윈에서 시작한다. 제품, 작업 스테이션, 로봇, 그리고 카메라가 보는 시야까지 현실의 물리법칙을 가상공간에 그대로 복제한다. 그 가상의 공장 안에서는 조명과 각도를 바꾸고, 부품 위치를 흩뜨리고, 좀처럼 일어나지 않는 불량과 예외 상황을 마음껏 연출할 수 있다. 한 번에 수만 개의 변형 시나리오가 만들어지고, 사람이 일일이 라벨을 붙이지 않아도 정답값이 자동으로 따라붙는다. 현실에서 며칠 걸릴 수집이 시뮬레이션에서는 몇 시간으로 압축되는 것이다.

합성데이터의 힘은 단순히 많이 만드는 데 있지 않다. 핵심은 '분포를 설계한다'는 점이다. 그런데, 현실 데이터는 양극화 되어있다. 일상적인 데이터는 과포화 상태인 반면, 예측하기 힘든 특이 상황의 데이터는 극도로 결핍되어 있다. 정상 제품 1만 장에 불량 한 장, 정작 AI가 실패하는 곳은 바로 그 드문 지점이다. 시뮬레이션은 이 분포를 인위적으로 재설계할 수 있다. 위험해서 못 겪는 상황, 비싸서 못 만드는 결함, 통계적으로 희박한 경계 사례를 의도적으로 과대표집해 채워 넣는다. 여기에 도메인 랜덤화(Domain Randomization), 텍스처·조명·마찰·센서 노이즈를 무작위로 흔드는 기법을 더하면, 모델은 특정 환경에 과적합하지 않고 변하는 조건 속에서도 변하지 않는 본질을 배운다. 데이터를 모으는 것이 아니라, 학습이 필요한 분포를 직접 만들어 내는 것이다.

엔비디아가 던진 명제인 '연산이 곧 데이터(compute is data)'는 이 변화를 정확히 관통하고 있다. 과거의 공장이 부품을 찍어냈다면, 이제 엔비디아의 옴니버스(Omniverse)와 아이작 심(Isaac Sim), 코스모스(Cosmos) 같은 시뮬레이션 환경은 데이터를 찍어내는 공장이 된다. GPU가 돌아가는 만큼 학습용 경험이 쌓인다. 모델이 데이터를 만들고, 그 데이터가 다시 모델을 키우는 순환이 성립한다.

필자가 'AI 국부론'에서 말한 Model-to-Data 명제와 정확히 맞닿는다. 가치의 무게중심은 모델 그 자체에서, 모델이 학습할 데이터를 설계하고 생성하는 능력으로 옮겨간다. 누가 더 좋은 모델을 가졌느냐가 아니라, 누가 더 풍부하고 정교한 경험을 합성할 수 있느냐가 경쟁의 축이 된다.

경제 논리는 훨씬 더 단순하다. 현실에서 로봇 한 대가 한 번 동작을 시도하는 데는 사람, 시간, 부품, 안전이라는 고정비가 들 수 밖에 없고, 시도가 늘수록 비용은 선형으로 증가한다. 반면 시뮬레이션의 한계비용은 GPU 시간에 수렴한다. 첫 데이터 한 건은 비싸지만, 천 번째, 백만 번째 데이터는 거의 공짜에 가깝다. 학습할수록 모델이 좋아지고, 좋아진 모델이 더 나은 시나리오를 생성하며, 그 시나리오가 다시 모델을 키우는 데이터 플라이휠이 돈다. 한쪽은 비용이 쌓이고 다른 쪽은 비용이 내려간다. 이 비대칭이 합성데이터를 선택이 아닌 필수로 만드는 것이다.

합성에서 끝나지 않는다 … Sim-to-Real이라는 마지막 관문

물론 합성데이터에는 어려운 점이 있다. 시뮬레이션이 아무리 정교해도 현실의 근사치이기 때문에 가상에서 완벽하게 학습한 로봇이 실제 작업장에서 무너지는 일은 흔하다. 이 간극을 심투리얼 갭(Sim-to-Real Gap)이라 부른다.

이 갭은 어디서 올까? 첫째는 물리의 불완전한 모사다. 마찰, 미끄러짐, 재질의 미세한 변형, 케이블의 출렁임 같은 것들은 방정식으로 깔끔히 떨어지지 않는다. 둘째는 센서의 차이다. 가상 카메라는 깨끗한 픽셀을 주지만, 현실 카메라는 노이즈와 모션 블러, 렌즈 왜곡, 조명 점멸을 함께 준다. 셋째는 예측 불가능한 현실의 롱테일이다. 시뮬레이터를 설계한 사람이 상상하지 못한 상황은 시뮬레이션에 존재하지 않는다. 가상은 '내가 아는 세계'만 그릴 수 있지만, 현실은 늘 그 바깥의 세계에도 존재한다.

그래서 현실의 데이터를 가상에 이식하고(Real2Sim), 가상 공간의 압도적인 스케일로 대량 학습을 수행한 후, 그 결과물을 현실에 적용해 오차를 다시 시뮬레이터에 되먹이는(Sim2Real) 지속 가능한 선순환 구조를 만드는 것이다. 현실에서 발견된 실패가 다음 합성데이터의 재료가 되고, 갭은 한 바퀴 돌릴때마다 조금씩 좁아진다. 바로 이 지점에서 도메인 랜덤화(Domain Randomization)가 강력한 무기가 된다. 시뮬레이터의 조건을 현실보다 훨씬 가혹하게 무작위로 흔드는 것이다. 가상 세계에서 이미 최악의 시나리오들을 예방접종 하듯 학습한 모델에게, 실제 현실은 예상 범위 내의 일부일 뿐이다. 정교한 모사로 현실과의 오차를 좁혀가는 정공법과, 압도적인 다양성으로 오차 자체를 무력화하는 우회로가 상호보완적으로 작동하는 셈이다.

정밀 제조 분야에서는 한발 더 나아가는데, 합성데이터는 단순한 기술이 아니라 단계적 배치 방법론으로 다뤄져야 한다는 것이다. 즉 하나의 모델, 하나의 정확도 지표로 "이제 현장에 깔자"고 결정해선 안 된다는 것이다. 개념검증(POC)은 양산 승인이 아니라, 비용 검증 단계로 넘어가는 근거일 뿐이기 때문에 검증되지 않은 합성데이터는 자신감만 부풀린 환각이 될 수 있는 위험이 있다.

그래서 합성데이터의 진짜 성숙도는 "얼마나 그럴듯한 영상을 만드느냐"가 아니라, "현실에서 첫 시도에 맞히는 비율(first-time-right)을 얼마나 끌어올리느냐"로 측정된다. 보기 좋은 가상은 흔하지만, 현실로 이어지는 가상은 드물다. 그 다리를 놓고, 건넌 뒤 무너지지 않았음을 증명하는 일이 합성데이터 산업의 진짜 난제다.

합성 데이터라는 전장

2025년 3월, 엔비디아는 합성데이터 스타트업 그레텔(Gretel)을 기업가치 3억2000만 달러를 웃도는 가격에 인수했다. 거대 기업들이 학습에 쓸 현실 데이터를 거의 소진하면서, 데이터를 인공으로 빚는 능력 그 자체가 전략 자산이 된 것이다.

그뿐이 아니다. 자율주행용 가상 환경을 만드는 패럴렐 도메인(Parallel Domain), 물리 기반 합성 데이터셋을 전문으로 하는 렌더드 AI(Rendered AI), 그리고 실제 데이터와 합성 데이터를 함께 먹여 로봇 파운데이션 모델을 키우는 로보포스(RoboForce), 스킬드 AI(Skild AI)까지 모델 경쟁의 이면에서 '데이터 레이어'를 선점하려는 경쟁이 본격화되고 있다. 2025년 로봇 분야가 사상 최대인 407억 달러를 빨아들인 배경에도, 결국 이 데이터 주도권 다툼이 깔려 있다고 본다.

우리나라의 포지셔닝은?

그렇다면, 우리나라는 본격적으로 로봇 하드웨어 경쟁에 뛰어들 것인가, 아니면 그 로봇들이 먹고 자랄 데이터를 공급할 것인가. 이 질문은 결국 주권의 문제로 이어진다. 합성데이터는 단순한 부품이 아니라, 한 나라의 산업, 공정, 작업장의 물리를 디지털로 옮겨 담은 자산이다. 우리 공장의 동작과 결함과 예외를 우리가 직접 시뮬레이션으로 빚지 못하면, 그 데이터를 만드는 플랫폼과 그 위에서 길러진 로봇의 지능은 모두 바깥에서 들여와야 한다. 그래서 나는 이것을 소버린 AI의 중요한 한 축이라고 본다. 모델의 주권만이 아니라, 그 모델을 길러낼 데이터를 자급할 수 있느냐가 한 나라의 국부(國富)를 가를수 있다. 설사 하드웨어를 사 오고 모델을 빌려 쓰더라도(물론 당연히 하드웨어와 모델 주권성도 중요하다.) 우리의 현실을 데이터로 번역하는 능력만큼은 안에 있어야 한다.

이 흐름 위에 올라선 한국 기업도 있다. 스카이인텔리전스는 엔비디아 옴니버스 기반으로 제품 3D 스캔과 콘텐츠 생성을 자동화한 리테일 솔루션에서 출발했지만, 최근 피지컬 AI 확산으로 합성데이터 수요가 커지자 무게중심을 옮기고 있다. 산업 공정과 피지컬 AI의 가장 큰 한계는 학습 데이터와 현실 사이의 격차이고, 그것을 메우는 것이 합성데이터라는 것이다. 스카이인텔리전스는 단순 3D 합성 데이터 생성을 넘어 산업 현장의 구조, 객체 상호작용, 로봇 동선, 물리 기반 시뮬레이션을 연계한 합성데이터 인프라 고도화에 주력하고 있다. 현실의 사물을 디지털 트윈으로 옮기는 기술이, 광고 콘텐츠를 넘어 로봇의 학습 자원으로 확장될 수 있음을 보여주는 중요한 사례다.

정리해보자. 피지컬 AI 시대의 승부처는 더 빠른 팔, 더 강한 관절에만 있지 않다. 그 몸이 무엇을 얼마나 경험했는가, 그 경험을 누가 설계하고 생성하는가에 있다. 로봇은 하드웨어만으로 완성되지 않는다. 데이터로 길러진다. 합성데이터는 그 원동력이 되는 원료이자 음식이다.

LLM의 원료가 인터넷 텍스트였다면, 체화된 지능(Embodied Intelligence)의 원료는 시뮬레이션이 빚어낸 경험이다. 이 원료를 자급할 수 있는 나라와, 수입에 의존하는 나라의 격차는 머지않아 'AI 국부'의 격차로 드러날 것이다. 로봇의 팔을 부러워할 시간에, 그 팔이 무엇을 배울지를 설계해야 한다.

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

이승현 라이너 AI 에반젤리스트는 스타트업 창업가 출신의 AI 전문가다. 디지털플랫폼정부위원회 인공지능플랫폼혁신국장으로서 재직하면서 대한민국 공공 AI의 초석을 닦았으며, 현재는 가천대 스타트업칼리지 겸임교수, 법무법인 린의 공공AX 고문을 겸하며 기술과 정책의 가교 역할을 하고 있다. 이론에 머물지 않는 현장형 전략가로서 국가 전반의 AI 네이티브 전환을 이끌고 있다.

IT조선에서 직접 확인하세요. 해당 언론사로 이동합니다.

속보

피지컬 AI를 먹여 살리는 합성데이터 [이승현의 AI 네이티브]