엔비디아, 4만4000시간 인간 영상 학습 로봇 모델 '드림도조' 공개

김문기 기자 2026. 2. 22. 11:23
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[인더스트리 AI] 데이터 갈증 해소할 로봇 모델 '드림도조' 공개…성공률 17% 향상

[디지털데일리 김문기기자] 엔비디아가 로봇 학습의 고질적 난제인 데이터 부족 문제를 해결하기 위해 대규모 인간 활동 영상을 기반으로 한 인공지능(AI) 모델을 선보였다.

21일(현지시간) 블룸버그 등 복수 외신에 따르면 엔비디아는 약 4만4711시간 분량의 인간 시점(Egocentric) 영상을 학습한 오픈소스 로봇 월드 모델 '드림도조(DreamDojo)'를 공개했다. 이는 기존 로봇 학습용 공공 데이터셋보다 기술 범위는 96배, 장면 구성은 2000배 이상 넓은 역대 최대 규모다.

드림도조는 물리적 시뮬레이션 없이도 픽셀 단위로 행동 결과를 예측하는 파운데이션 모델이다. 로봇의 직접적인 동작 데이터가 없는 일반 영상에서도 물리 법칙과 상호작용 방식을 추출하기 위해 '연속 잠재 행동(Continuous Latent Actions)'이라는 대조 학습 기법을 도입했다. 이를 통해 로봇은 인간의 손동작을 관찰하는 것만으로도 복잡한 가사 노동이나 도구 사용법 등을 익힐 수 있다.

엔비디아는 모델의 추론 속도를 초당 10.8프레임(FPS)까지 끌어올려 실시간성도 확보했다. 실제 로봇에 적용한 결과 가상 환경에서의 계획 수립 및 실무 수행 성공률이 이전 대비 17% 향상된 것으로 나타났다. 현재 드림도조는 20억(2B) 및 140억(14B) 매개변수 규모의 두 가지 버전으로 제공되며, 연구자들은 이를 통해 물리적 하드웨어 없이도 대규모 정책 평가와 시뮬레이션을 수행할 수 있다.

엔비디아 연구진은 드림도조가 로봇 학습의 '데이터 병목 현상'을 타파할 전환점이 될 것이라고 강조했다. 특히 인터넷상에 존재하는 방대한 영상을 로봇의 교재로 활용할 수 있게 됨에 따라, 특정 환경에 국한되지 않는 범용 로봇 개발 속도가 한층 빨라질 전망이다.

심현 위(Sihyun Yu) 엔비디아 연구원은 "드림도조는 로봇이 실제 세계에 배치되기 전 가상 공간에서 수만 번의 '상상'을 통해 학습할 수 있도록 돕는다"라며 "이는 데이터 수집 비용을 획기적으로 낮추고 인간 수준의 정교한 조작 능력을 갖춘 휴머노이드 구현을 앞당기는 핵심 기술이 될 것"이라고 말했다.

엔비디아가 이번에 공개한 드림도조는 단순한 알고리즘의 개선이 아닌 '로봇 학습 패러다임의 전이'를 의미한다. 그간 로봇 업계는 실제 로봇을 구동해 데이터를 쌓는 '리얼 데이터'의 한계에 봉착해 있었다. 엔비디아는 이를 인간의 시각 정보라는 우회로로 해결하며 피지컬 AI 시장의 주도권을 더욱 공고히 하려는 전략이다. 특히 오픈소스로 배포함으로써 자사의 GPU 생태계를 로보틱스 연구 전반으로 확장하려는 계산도 깔려 있다.

결과적으로 로봇의 '뇌'를 만드는 싸움에서 데이터를 가장 효율적으로 요리할 수 있는 인프라를 제공하겠다는 엔비디아의 야심이 드림도조에 투영된 셈이다.

Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.