로봇 훈련시켜 하루 6만 건 데이터 싹쓸이[글로벌현장]

중국 베이징 서쪽 스징산구에 있는 서우강산업기지. 겉보기엔 평범한 창고형 건물 같지만 안으로 들어서니 축구장보다 넓은 1만㎡(약 3000평) 규모의 광활한 공간이 펼쳐졌다. 그 안에선 100여 대의 휴머노이드(인간형) 로봇들이 코너마다 줄을 맞춰 선 채 일정한 리듬으로 팔을 움직이고 있었다. 그 옆에선 인간 훈련사가 헤드셋과 센서 장비를 착용한 채 손을 들어 올리거나 특정 동작을 반복했다. 각 로봇은 훈련사의 그 동작을 그대로 따라하는 장면이 이어졌다.
이 가운데 한 코너를 보니 로봇이 훈련사를 따라 토스터에 있는 빵을 꺼냈다가 테이블에 내려놓는 동작을 수십 번 반복하고 있었다. 로봇이 빵을 쥐는 압력과 각도, 미세한 손가락 움직임은 모두 데이터로 기록됐다. 사방에 있는 수십 대의 카메라와 센서가 로봇의 모든 동작을 추적하고 벽쪽 스크린에는 ‘팔 회전’, ‘왼쪽 이동’, ‘힘 조절’ 등의 데이터 태그가 실시간으로 형성됐다. 베이징 최초이자 중국 내 최대 규모로 손꼽히는 로봇 데이터 트레이닝 센터의 모습이다.
행동 데이터로 로봇 진화 가속
집단 훈련실을 지나 복도를 따라 들어가니 고급형 아파트와 동일한 실내 환경이 펼쳐졌다. 이른바 시나리오별 응용 훈련소다. 거실과 마사지실 그리고 커다란 주방과 안방, 다용도실까지 모두 갖추고 있다.
일반 가정집과 동일하게 꾸며진 이곳에서 로봇들은 주변의 물리적 환경과 상호작용을 하면서 훈련을 받았다. 거실에선 로봇이 훈련사를 따라 끊임없이 책장에서 책을 꺼내고 다시 꽂았다. 주방의 싱크대 앞에 선 로봇은 그릇을 하나하나 들어 식기세척기 안에 넣는 작업을 수없이 반복했다. 안방 침대에선 로봇이 계속해서 수건을 개고 펴는 일을 수행했다. 한 훈련사는 “아무리 훌륭한 첨단 하드웨어를 갖춘 로봇이라도 복잡한 일상 환경에서 인간처럼 자연스럽게 움직이기 위해선 방대한 실생활 데이터가 필요하다”고 말했다.
‘로봇 학교’, ‘로봇 훈련 기지’로 불리는 이곳은 지난해 베이징시로부터 부지 등을 지원받아 세워졌다. 로봇 관절과 초경량 휴머노이드 팔을 제작하는 리얼맨로보틱스가 운영하고 있다. 이곳에서 로봇은 훈련사를 따라 같은 동작을 수백 번, 수천 번씩 반복하면서 물체를 잡는 방법, 이동하는 방법, 힘을 조절하는 방식을 학습한다.
이곳에서 로봇들은 매일 8시간씩 강도 높은 훈련을 받는다. 로봇 한 대가 하루에 생성하는 유효 데이터는 약 4시간 분량으로 알려졌다. 이곳에선 하루에 6만 건가량의 데이터를 생산하고 있다. 로봇이 책을 잡는 힘의 세기, 팔을 뻗는 각도, 장애물을 피하는 속도 등이 모두 데이터로 축적돼 ‘로봇의 뇌’로 전송된다.
정수이빙 리얼맨로보틱스 최고경영자(CEO)는 “베이징 최초의 로봇 데이터 트레이닝 센터를 구축했을 뿐만 아니라 1000개 이상의 작업 시나리오를 갖췄다”며 “확보한 데이터를 통해 로봇의 인지 능력과 실행 능력을 향상시키는 데 초점을 맞추고 있다”고 말했다. 이어 “실제 작업 데이터를 계속 쌓을수록 로봇이 더 똑똑해지는 구조”라며 “로봇을 위한 양질의 교과서를 제작하는 셈”이라고 덧붙였다.
전국에 확산하는 훈련센터
이처럼 중국은 대규모 데이터 생산에 주력하고 있다. 미·중 첨단기술 패권 경쟁 속에서 로봇산업을 빠르게 키우고 혁신의 수준을 높이려면 데이터가 필수란 판단에서다. 달리고 춤추는 단순한 기술 경쟁을 넘어서 산업 패러다임 전환의 주도권을 확보하려면 행동 데이터가 전제돼야 한다는 계산이 깔려 있다.
이 때문에 중국 정부는 지방정부, 민간 기업들과 손잡고 대규모 데이터훈련센터를 설립하고 있다. 베이징, 상하이, 후베이성, 산둥성 등에 세웠으며 유사한 형태의 로봇 훈련 시설들이 생겨나고 있다. 현지 업계에 따르면 현재 중국 전역에 40여 개 로봇 데이터훈련센터가 세워졌으며 이 중 20여 개가 가동 중이다.

각 데이터훈련센터는 하루 수십에서 수백 시간 분량의 로봇 학습 데이터를 생성하고 있다. 이들 센터는 인간이 수행하는 동작을 로봇을 통해 반복 기록해 로봇 학습용 데이터로 전환하는 역할을 하고 있다. 중국 내에선 최근 인공지능(AI)이 빠른 속도로 발전하고 있지만 텍스트 기반 대규모 언어모델과 달리 로봇은 실제 환경에서 움직이기 위한 행동 데이터를 필요로 하고 있다.
베이징시 관계자는 “로봇은 데이터를 통해 학습하고 이 같은 데이터가 결국 로봇의 두뇌를 만드는 핵심 인프라”라고 말했다. 중국 전역에서 생성된 데이터는 로봇 제조사와 AI 기업에 제공돼 로봇용 AI 모델 개발에 활용되고 있다. 이들 센터가 일반 가정, 호텔, 공장, 마트 등 다양한 환경을 구현해 로봇의 실제 행동 데이터를 대규모로 축적하고 있는 것도 이 때문이다.
과잉 투자·데이터 한계는 ‘고민’
현지 로봇업계 관계자는 “중앙정부와 지방정부가 투자해 생산된 데이터를 산업 전체에 공유하면 개별 기업이 감당하기 어려운 비용을 분산시킬 수 있다”며 “이와 함께 국가 차원의 기술 축적 속도를 끌어올릴 수 있다”고 했다. 과거 전기차 산업에서 정부가 초기 수요를 만들어 시장을 키운 전략과 유사한 방식이라는 평가도 나온다.
데이터는 향후 로봇산업에서 표준을 결정짓는 핵심 자산이 될 가능성이 크다. 특정 국가나 기업이 대규모 고품질 데이터를 장악하면 그 데이터에 기반한 AI 모델이 사실상 산업 표준으로 자리 잡을 수 있기 때문이다. 중국도 이런 ‘데이터 주권’의 필요성을 인식해 전국 단위로 훈련센터를 확장해나가고 있다. 업계 또 다른 관계자는 “로봇 트레이닝 센터는 연구시설이라기보다는 미래 제조·서비스 산업의 패권을 좌지우지할 핵심 인프라라고 보는 것이 맞다”고 말했다.
물론 한계도 있다. 가장 큰 문제는 데이터의 전이성이다. 현재 로봇은 특정 기종에서 수집된 데이터가 다른 기종에 그대로 적용되기 어렵다. 하드웨어 구조가 조금만 달라져도 동일한 동작을 다시 학습해야 한다. 로봇마다 모터의 출력, 팔의 길이, 센서의 위치가 달라서다. 로봇의 하드웨어 기술이 빠르게 발전하다 보니 어렵게 축적한 데이터가 새로운 로봇에는 적용되지 않을 수 있다. 데이터 확보 자체의 비효율성도 있다. 인간이 직접 동작을 반복해 데이터를 생성하는 방식은 시간과 비용이 많이 든다.
여기에 과잉 투자 가능성도 우려되고 있다. 각 지방정부가 경쟁적으로 훈련센터를 구축하면서 공급과잉 조짐이 나타나고 있어서다. 일부 시설에선 로봇이 훈련보다 전시용으로 활용되는 경우도 있다. 베이징에서 만난 로봇 손 전문 업체 관계자는 본사 입구에 전시된 로봇을 두고 “고위 관료들이 시찰 올 때만 작동하는 시연용”이라고 귀띔하기도 했다.
베이징=김은정 한국경제 특파원 kej@hankyung.com
Copyright © 한경비즈니스. 무단전재 및 재배포 금지.