로봇만 많으면 뭐하나...데이터 경쟁서 밀리는 한국

세계적인 로봇 제조 강국인 한국
근로자 1만명당 로봇 수 세계 1위
로봇 실제 행동에 필요한 데이터
중국 등 경쟁국들에 비해 밀려

한국은 세계적인 제조업 로봇 강국이다. 국제로봇연맹(IFR)에 따르면 한국의 제조업 로봇 밀도는 근로자 1만 명당 1220대로 세계 1위다. 세계 평균 177대와 비교하면 6배 수준이다. 하지만 로봇이 많다고 해서 피지컬 AI 경쟁력이 최고 수준이라고 할 수 없다. 로봇을 실제적으로 유용하게 작동하게 하는 데 필요한 데이터가 절대적으로 부족한 탓이다.

3일 산업계에 따르면 국내 행동 기반 학습 데이터 축적 수준은 글로벌 선도권과 비교해 초기 단계에 머물러 있다. 유태준 한국피지컬AI협회장은 “현재 국내에 구축된 행동 기반 학습 데이터는 글로벌 대비 10% 이하 수준”이라며 “아직 산업 경쟁력을 만들 수 있는 단계에 도달하지 못했다”고 말했다. 그는 “특히 중요한 것은 단순한 양이 아니라 상황·판단·행동이 연결된 데이터 구조인데 이 부분이 가장 취약하다”고 지적했다.

행동 데이터는 텍스트처럼 인터넷에서 대량으로 긁어올 수 있는 성격이 아니다. 로봇이 사람의 행동을 영상이나 대면 시연을 통해 직접 관찰하고 이를 따라 하며 반복적으로 연습한 기록을 오랜 시간 기록하는 과정에서 쌓인다. 결국 현실 데이터가 없으면 피지컬 AI 경쟁력을 확보하기 어렵다. 이런 점에서 한국의 상황은 녹록지 않다.

피지컬 AI 모델이 실제 작업을 수행하려면 ‘상황-판단-행동’이 하나로 이어진 시나리오형 데이터가 필요하다. 로봇이 어떤 공정에서 어떤 물체를 인식했고, 어떤 판단을 거쳐 어떤 동작을 수행했는지, 그리고 그 결과가 성공이었는지 실패였는지까지 하나의 데이터셋으로 연결돼야 한다. 그러나 국내 현장 데이터는 대부분 설비별로 파편화돼 있고 전후 맥락도 끊겨 있어 곧바로 AI 학습에 투입하기 어렵다.

이 같은 한계의 가장 큰 원인은 제조 데이터가 대부분 기업 내부에 폐쇄적으로 축적돼 있고 표준화도 이뤄지지 않았기 때문이다. 김유철 LG AI연구원 전략부문장은 “로봇마다 쓰는 카메라와 압력 센서, 관절 구조가 다르고 데이터 수집 포맷과 주기, 해상도도 다르다”며 “데이터를 모아도 그대로는 한 번에 학습하기 어렵다”고 말했다. 결국 다양한 형식의 데이터를 한데 모아 학습 가능한 형태로 바꾸는 표준화 작업이 필수라는 뜻이다. 김기훈 모벤시스 대표도 “2차전지처럼 밀리초 단위의 고속 공정에서는 수십만 개 데이터를 실시간으로 처리해야 하는데 현재 인프라로는 쉽지 않다”고 지적했다.

암묵지의 데이터화 역시 중대한 과제다. 암묵지의 데이터화란 숙련 노동자의 손기술과 감각, 경험, 순간적 판단처럼 말이나 매뉴얼로는 설명하기 어려운 작업 노하우를 관찰, 측정, 기록 가능한 형태로 바꾸는 작업이다. 하지만 기업들은 공정 노하우 유출을 우려해 데이터를 외부에 내놓는 데 소극적이다. 숙련공 역시 자신의 손기술과 판단이 데이터화되면 결국 자신을 대체하는 데 쓰일 수 있다는 불안을 느끼기 때문에 협조를 꺼리는 경우가 적지 않다.

문제는 고령화로 숙련공의 현장 이탈이 빨라지고 있다는 점이다. 정밀 조립과 용접·검사·판별처럼 숙련자의 감각과 경험에 의존하는 공정은 지금 데이터로 남기지 않으면 그대로 사라질 가능성이 높다. 업계 관계자는 “암묵지의 데이터화는 단순한 기술 문제가 아니라 산업 지식 보존의 문제로 접근해야 한다”며 “지금이 마지막 기회일 수 있다”고 강조했다.

다만 단순히 데이터를 쌓는 것만으로는 충분하지 않다. 업계에서는 데이터를 수집하는 데 그치지 않고 이를 고품질 데이터로 가공·검증하는 과정을 강조하는 목소리도 높다. 서로 다른 로봇과 센서에서 나오는 데이터를 학습 가능한 형태로 표준화하고 한국만의 특화 분야를 찾아 고품질 데이터를 축적하는 데 집중해야 한다는 지적이다. 유 협회장은 “한국은 제조, 품질, 정밀공정, 산업 다양성에서 강점이 있다”며 “2~3년 안에 방향을 정하지 못하면 격차가 고착화될 가능성이 큰 만큼 양이 아니라 고품질 데이터로 승부해야 한다”고 말했다.

한편 세계적인 피지컬 인공지능(AI) 기업들은 이미 대규모 실물 행동 데이터 확보 경쟁에 돌입했다. 미국 스타트업 피지컬인텔리전스는 지난해 공개한 ‘파이제로(π0)’ 모델 학습에 1만 시간의 로봇 시연 데이터를 활용했다고 밝혔다. 또 다른 실리콘밸리 스타트업 제너럴리스트AI는 피지컬 AI 모델 ‘GEN-0’가 27만 시간 규모의 실세계 운용 데이터를 학습했다고 발표했다. 글로벌 업계에서는 내년까지 주요 알고리즘 기업들의 학습 데이터 규모가 100만 시간대를 넘어설 것이라는 전망도 나온다.

서지혜 기자 wise@sedaily.com

서울경제

IT/과학

로봇만 많으면 뭐하나...데이터 경쟁서 밀리는 한국