AI는 누구의 몸으로 배우는가

[AI와 저널리즘]

[미디어오늘 오세욱 선문대 미디어커뮤니케이션학부 교수]

▲ 얼마 전 레딧에 인도의 한 봉제 공장에서 수십 명의 노동자들이 머리에 카메라를 장착한 채 천을 꿰매고 있는 영상이 공개됐다. 사진=레딧 갈무리

AI 기술의 발전 속도는 웬만한 전문가들도 따라가기 힘들 정도로 빠르게 진행되고 있다. 이러한 가운데 최근 미국의 온라인 토론 플랫폼 '레딧(reddit)'에서 짧은 영상 하나가 화제가 됐다. 인도의 한 봉제 공장으로 알려진 현장에서 수십 명의 노동자들이 머리에 카메라를 장착한 채 천을 꿰매고 있는 영상이다. 이 영상에는 “인공지능 시스템 훈련을 위해 손 움직임을 기록하려고 머리에 카메라를 장착한 인도 공장 노동자들”이라는 설명이 붙어 있었다. AI가 스스로 배우는 것처럼 알려진 시대에, 그 학습을 실제로 떠받치는 손과 몸이 어디에 있는지를 상징적으로 보여주는 영상이었다.

AI가 '스스로' 학습한다는 표현은 정확하지 않다. AI 챗봇들의 기반이 되는 대규모 언어모델은 방대한 텍스트를 통계적으로 학습한 뒤, 인간 평가자가 “A 답변과 B 답변 중 어느 쪽이 더 나은가”에 일일이 답하는 지난한 과정을 거쳐 다듬어진다. 이른바 '인간 피드백 기반 강화학습(RLHF, Reinforcement Learning from Human Feedback)'이다. 기계학습과 파인 튜닝만으로는 도움이 되고, 정직하며, 안전한 답변을 완전히 보장할 수 없기 때문이다. 결국 사람이 답변을 하나하나 평가하고 그 결과를 보상 모델에 반영한다. 서비스가 출시된 이후에도 이 과정은 끝없이 반복된다. 대규모 언어모델은 완성된 산물이 아니라, 수많은 인간 평가자의 클릭이 쌓여 만들어지면서 다시 만들어진다.

텍스트를 넘어 실세계의 움직임을 학습해야 하는 이른바 '피지컬 AI'에서는 이 의존이 한층 더 분명하게 드러난다. 테슬라, 피규어 AI, 어질리티 로보틱스 같은 기업들이 사람처럼 생기고 움직이는 휴머노이드 로봇을 경쟁적으로 개발하면서, 노동자들이 촬영한 영상이 이를 훈련시키는 가장 유력한 방식으로 활용되고 있다. 팔로알토에 본사를 둔 마이크로원(Micro1)이라는 회사는 인도, 나이지리아, 아르헨티나를 비롯한 50여 개국에서 수천 명의 계약 노동자를 고용해, 이들이 아이폰을 이마에 장착한 채 빨래를 개고, 설거지를 하고, 요리하는 모습을 촬영하도록 한다. 대규모 언어모델이 방대한 인터넷 텍스트를 학습했듯, 로봇도 인간의 몸짓을 데이터로 삼아 물리적 세계를 배우고 있다. MIT 테크놀로지 리뷰에 따르면, 2025년 한 해 동안 휴머노이드 로봇에 투입된 투자액은 60억 달러를 넘었고, 로봇 기업들이 실세계 데이터를 사들이는 데 매년 1억 달러 이상을 쓰고 있는 것으로 추정된다.

케냐, 필리핀, 인도, 브라질 같은 나라의 노동자들이 시간당 약 15달러를 받고 집안일을 촬영한다. 나이로비나 마닐라 기준으로는 경쟁력 있는 보수이지만, 이 영상을 활용해 수익을 올릴 로봇 기업으로 흘러 들어가는 수십억 달러와는 비교가 불가능할 정도로 적은 금액이다. 이 구조가 기존 플랫폼 경제의 비대칭성과 다른 지점은 바로 상품화의 대상에 있다. 지금까지 데이터 경제가 수집해 온 것은 대체로 이용자가 남긴 흔적, 즉 클릭과 검색어, 게시물이었다. 반면 이번에는 노동자의 집 내부와 몸의 움직임 자체가 촬영되어 데이터로 거래된다. 대가를 받는 노동의 외형을 갖추고 있지만, 실제로 판매되는 것은 노동의 결과물이 아니라 노동하는 신체의 기록이다.

이전 칼럼에서 'AI의 언어 편식' 문제를 다룬 바 있다. 전 세계 웹사이트의 절반 이상이 영어로 작성되어 있고, 힌디어는 세계 인구의 약 7.5%가 사용하지만 인터넷 데이터에서는 0.2%만을 차지한다. AI가 인터넷 데이터를 바탕으로 학습하면서, 영어와 서구 지식은 더욱 증폭되고 비서구 언어의 지식은 체계적으로 주변화된다. 그런데 휴머노이드 로봇의 훈련 데이터 현상은 정반대 방향의 배제를 보여준다. 지식의 영역에서는 비서구의 언어와 경험이 학습에서 빠져나가지만, 그 기술을 훈련시키는 육체 노동의 영역에서는 바로 그 비서구 사람들이 집중적으로 동원된다. AI가 배우는 지식의 대상에서는 빠져 있던 사람들이, AI에게 몸을 가르치는 일에는 대거 동원되는 셈이다. 같은 기술이 보여주는 두 얼굴이다.

AI를 다루는 기사들은 대체로 기술의 결과물에 초점을 맞춘다. 어떤 모델이 얼마나 똑똑해졌는지, 어떤 일자리를 대체할 것인지, 어떤 서비스를 출시했는지 등이다. '스스로 학습한다', '자율적이다', '스마트하다' 등과 같은 기업의 마케팅 언어도 큰 여과 없이 기사에 편입된다. 그러나 자동화라는 말이 은폐하는 것은 단지 기술의 한계가 아니라, 그 기술을 작동시키는 수많은 사람들의 손과 시간이다. 기술의 결과물만이 아니라 그 결과를 가능하게 한 노동까지 함께 기록되어야 우리는 AI 시대의 온전한 풍경을 그려낼 수 있다. 우리가 아무렇지 않게 쓰고 있는 AI 도구의 '편리함' 아래에 누구의 시간과 몸이 쌓여 있는지에 대해서도 질문하고 관심을 가질 필요가 있다. 보이지 않는 노동을 계속 보이지 않는 상태로 두는 것은 기술의 속성이 아니라, 우리가 그 기술을 대하는 방식의 문제다.

사회

AI는 누구의 몸으로 배우는가