[NDC2021] 엠바크는 왜 2년간 로봇 훈련을 했을까?

임영택 2021. 6. 11. 19:06
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

엠바크스튜디오 톰 솔베르그 "창발적 플레이 위해 물리적 게임플레이 구현"

“우리의 목표는 물리적 게임플레이를 실행 가능한 핵심 메카닉으로 만드는 것입니다. 우리가 게임 전체를 물리적으로 믿을만하게 만들 수 있다면 창발적인 게임플레이를 만들 수 있을 것입니다. 이런 게임플레이를 통해 이용자들은 오픈 샌드박스 내에서 자신들의 경험을 결정하고 창조할 수 있게 됩니다.”

넥슨의 자회사 엠바크스튜디오의 톰 솔베르그 엔지니어는 ‘넥슨개발자콘퍼런스(NDC)2021’에서 ‘로봇을 훈련하는 방법’을 주제로 강연했다. 그는 강연에서 엠바크스튜디오가 왜 물리 기반으로 작동하는 로봇을 훈련하게 됐는지와 그 과정, 목표 등을 소개했다.

솔베르그 엔지니어에 따르면 엠바크스튜디오가 로봇을 훈련하게 된 것은 물리적 게임플레이 구현을 위함이다. 이를 통해 창발적인 게임플레이를 구현하는 것이 최종 목표다.

가령 게임 속에 불타고 있는 보스 몬스터가 있다고 하자. 현실적인 상황에서 이용자는 화염을 막아주는 마법이 필요하다고 생각하고 지면에 있는 불을 피하려 할 것이다. 근처에 물이 있다면 우리 몸에 붙은 불을 끌 수도 있다. 이처럼 매일 물리적인 세계를 겪는 이용자들은 동일하게 물리학에 대한 직감을 가질 수 있다.

그러나 샌드박스 설정에서 이것을 핵심적이고 영향력 있는 게임플레이 메카닉으로 만들어 활용하는 게임은 사실 거의 없다는 것이 솔베르그 엔지니어의 설명이다. 이에 이용자의 몰입을 위해 물리 기반 애니메이션이 필요하다고 판단했다고 한다. 실행 방법은 강화학습이었다.

그에 따르면 엠바크스튜디오는 2019년 6월부터 지금까지 약 2년간 이 부분의 연구를 진행했다. 첫 테스트는 2명의 연구원이 유니티로 수행했고 다시 언리얼엔진에서 이것이 동작하는 것을 증명하기 위해 연구개발을 지속했다. 같은 해 12월에는 인공지능(AI) 시스템과 게임플레이로 실제 작동하는 프로토타입에서 이 개념을 증명할 수 있도록 구축할 수 있었다. 다시 연구를 지속해 하나의 로봇이 프로토타입 단계에서 목표 품질에 이르기까지 거의 1년이 걸렸고 다시 2개월 동안은 새로운 로봇세트들 사이에서 모멘텀을 구축했고 현재는 프로토타입 2호에 좀 더 집중하고 있다.

이 과정에서 사용된 것은 강화학습이다. 강화학습은 쉽게 말해 ‘고전적 조건화’ 또는 ‘조건반사적 훈련’이다. 개나 고양이에게 먹이를 주는 것처럼 보상을 제공해 행동을 강화하는 것이다.

강화학습은 관찰과 행동, 보상, 향상이라는 4단계로 구성된다. 관찰 단계에서는 고양이가 비어있는 그릇과 사료 봉투, 버튼을 살핀다. 고양이는 이들 사물간에 있는 연결 관계를 모르지만 상호작용할 수 있는 능력은 있다. 2단계는 행동이다. 고양이는 무엇인가 행동을 할 수 있다. 때때로 올바른 행동을 통해 버튼을 누를 수 있다. 3단계는 보상이다. 버튼을 누르면 보상은 즉시 이뤄진다. 마지막 ‘향상’에서 고양이는 버튼을 누르면 사료를 받는 것을 알게 된다. 이를 반복하는 것이 강화학습이다.

물론 강화학습의 결과가 올바른 방향으로만 흐르지는 않는다. 명령에 따라 개가 짖도록 훈련했지만 개는 보상을 얻기 위해 짖는 것을 배울 수도 있다. 마찬가지로 로봇의 훈련도 의도대로 흐르지는 않는다.

엠바크스튜디도에서는 로봇을 충분히 훈련시킨 이후 성공 여부를 확인할 때 ‘로봇이 얼마나 많은 보상을 받았는지’와 ‘어떤 임무에 대해서 보상을 받았는지’를 살펴 성공 여부를 파악했다고 한다.

그는 실제로 48시간의 걸친 훈련 과정에 따라 변화하는 6족 로봇의 보행 능력을 소개하고 영상을 통해 그동안의 연구로 탄생한 로봇의 현실적인 움직임을 보여주기도 했다.

난관도 있었다. 강화학습에 필요한 도구들이 등장하고 있지만 아직 수준이 떨어져 기술적 데모와 도구를 직접 구축해야 했고 오랜 시간이 소요됐다. 아직도 가야할 길이 멀다는 것이 그의 설명이다. 또 물리적인 환경에서 불가능한 형태의 로봇을 설계하는 아티스트를 설득하는 것도 필요했다. 헐리우드 영화에서 등장하는 멋진 로봇들은 실제 세상에서는 스스로의 무게에 못 이겨 고장 나거나 넘어질 수 있다는 것이 그의 소개다. 이에 아티스트들이 디자인에 있어서 질량, 균형, 영향력, 걸음걸이와 같은 것들을 고려하도록 만들기까지 오랜 시간이 걸렸다고 한다.

그는 이 같은 연구의 강점을 3가지로 제시했다. 첫째는 수작업으로 만들어낸 애니메이션보다 더 많은 동작에 물리적 디자인을 연결할 수 있다는 점이다. 가령 고릴라처럼 생긴 로봇은 보다 현실의 고릴라에 가까운 움직임을 보이게 학습이 이뤄졌다.

게임의 규칙들을 확장해 로봇이 새로운 규칙들을 사용하는 법을 배울 수 있는 점도 강점이다. 그는 날개를 단 로봇의 행동 영상을 보여주며 물리학 시뮬레이션에 날개를 추가해 나는 법을 배운 새와 같다고 말하기도 했다.

세 번째는 앞서 언급한 로봇 디자인의 문제점과 대조되는 사항이다. 그에 따르면 강화학습을 통해 대부분의 로봇은 어떤 방식으로든 걷고 움직이는 법을 배우게 된다. 심지어 실패했다고 보는 로봇들도 움직이는 법을 종종 배울 수 있다. 가령 개발자들이 원하는 방식으로 움직이지 않는 로봇이다. 이는 겉으로 보기에 실패로 판단된다. 하지만 미학적 경계를 확장해 실패로 보지 않는다면 물리적으로 가능한 광범위한 생명체들의 애니메이션을 만들 수 있을 것이라는 것이 그의 생각이다.

[임영택 게임진 기자]

[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Copyright © 매경게임진. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?