"가상공간서 시행착오 학습"…오픈AI·앤트로픽·구글 'RL짐' 경쟁

빅테크·스타트업 'AI 에이전트 강화학습 체육관' 대규모 투자
"업무 맡기려면 현실같은 가상서 AI 학습"…'매트릭스' 오나

글로벌 빅테크 강화학습 체육관 투자 경쟁 관련 제미나이 2.5프로 플래시 이미지 생성 요청 이미지

(서울=뉴스1) 김민석 기자 = 오픈AI·앤트로픽 등 주요 빅테크 기업들이 AI 에이전트 성능을 효율적으로 높이기 위한 대규모 강화학습(RL) 환경 구축에 대규모 투자 경쟁을 펼치고 있다.

'RL 체육관'(RL Gym)으로 불리는 가상 환경은 인공지능(AI)이 실제 업무 환경이 아닌 가상 공간에서 시행착오를 통해 학습할 수 있도록 설계된 공간이다. 영화 '매트릭스'에서 구현된 가상현실의 초기버전 개념이다.

강화학습은 구글 딥마인드가 2016년 알파고 개발에 사용한 기법으로 범용 트랜스포머 모델 훈련으로 확대되고 있다.

20일 IT 업계에 따르면 앤트로픽은 내년 RL 체육관 구축을 위해 10억 달러(약 1조 3885억 원) 투자를 계획하고 있다. 앤트로픽은 세일즈포스·젠데스크 등과 손잡고 시뮬레이션 앱에서 AI 모델을 훈련시키고 있다.

오픈AI은 올해 데이터 RL 환경 투자 비용 10억 달러에 RL 체육관 비용을 포함했다. 2030년엔 해당 투자를 80억 달러까지 확대할 방침이다.

구글 딥마인드가 올해 2월 발표한 데이터 효율적인 RL을 위한 Transformer World 모델 개선

구글 딥마인드도 올해 2월 트랜스포머 기반 월드 모델을 활용한 RL 기법으로 데이터 효율성에서 최첨단 성과를 달성했다고 발표했다.

AI 에이전트가 현실 업무를 수행하려면 실제 세상과 유사한 환경에서 학습해야 한다는 인식이 확산하면서 마이크로소프트(MS)·메타와 딥시크를 비롯한 중국 기업도 각자의 기술 접근법으로 강화학습 환경 구축에 나서고 있다.

RL 체육관(환경) 서비스 스타트업도 대규모 투자를 유치하고 있다.

올해 설립한 메커나이즈워크는 소프트웨어 엔지니어 업무를 시뮬레이션하는 RL 환경을 구축해 앤트로픽 등에 공급하고 있다. AI 에이전트가 가상공간에서 이메일·슬랙·코딩 도구 등을 활용해 실제 개발자처럼 작업하며 학습한다.

클렘 델랑게 허깅페이스 CEO 등이 투자에 참여한 프라임인텔렉트는 오픈소스 개발자들이 RL 체육관을 구축·공유하는 플랫폼 '환경 허브'를 출시했다. 환경 허브는 RL 환경의 허깅페이스를 표방한다.

스케일AI·서지·메르코 등 기존 데이터 라벨링 전문기업들도 RL 환경 구축으로 사업을 확장하고 있다.

전문가들은 RL 환경 구축은 현실과 동일한 대규모 가상환경을 구현해야 해 기존 AI 훈련과는 차원이 다른 복잡성을 가진다고 설명했다. 일각에선 AI 에이전트가 실제 작업 완료 없이 보상을 얻는 등의 기술적 한계가 아직 존재한다고 지적했다.

업계 관계자는 "RL 체육관이 AI 모델 강화학습 훈련을 넘어 실제 업무 자동화를 위한 필수 인프라로 인식되면서 투자가 집중되고 있다"며 "스케일링 법칙의 한계를 돌파할 새로운 돌파구로도 주목받고 있다"고 말했다.

ideaed@news1.kr

<용어설명>

■ RL 체육관
RL 체육관(RL Gym)은 인공지능(AI)·강화학습(RL) 에이전트가 실제 환경이 아닌 가상 환경에서 스스로 시행착오를 거치며 학습할 수 있도록 설계된 가상 공간이다. 이곳에서 에이전트는 선택한 행동을 적용하고 새로운 상태(state)와 보상(reward)을 반환한다. 이 과정을 반복해 에이전트는 최고의 보상을 얻을 수 있는 정책을 학습한다. 주요 구성 요소는 환경 초기화·행동 적용·관측 공간·액션 공간 등이다.

■ 범용 트랜스포머
범용 트랜스포머(Universal Transformer)는 텍스트·이미지·음성 등 다양한 데이터 유형을 처리할 수 있는 딥러닝 신경망 아키텍처를 의미한다. 자연어 처리(NLP)뿐 아니라 컴퓨터 비전·시계열 예측·음성 인식 등 분야에 활용된다.

■ 강화학습
강화학습(Reinforcement Learning·RL)은 인공지능(AI) 등이 스스로 시행착오를 거치며 최적의 행동을 학습하도록 설계된 머신러닝(기계학습) 기법이다. 에이전트는 주어진 환경에서 다양한 행동을 수행하고 그 결과를 얻는 보상을 바탕으로 누적 보상을 높이는 의사결정 전략을 스스로 발전시킨다.

IT/과학

"가상공간서 시행착오 학습"…오픈AI·앤트로픽·구글 'RL짐' 경쟁