[NDC2021] 더 좋은 게임 만들기 위해 인공지능까지 활용하는 넥슨

임영택 2021. 6. 9. 17:12
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

넥슨 권승진 엔지니어 "테스트 참가자 표정 분석해 게임성 검증"

“기존 FGT에서는 정성적 자료를 얻고 분석 보고서를 작성했다면 인공지능(AI)을 활용해 정량적 분석을 도출하고 별도의 작업 없이 보고서를 생성하려고 합니다.”

넥슨의 권승진 엔지니어는 9일 온라인으로 개막한 ‘넥슨개발자콘퍼런스(NDC)2021’에서 ‘FGT 얼굴 분석 프레임워크 개발 사례’를 주제로 강연했다. 해당 강연에서 그는 FGT 참가자의 표정을 분석하고 이를 게임의 완성도를 높이는데 활용할 수 있도록 인공지능 기술을 적용한 노력을 소개했다. 게임을 재미있게 만들기 위한 노력의 일환으로 AI 기술을 활용해봤다는 설명이다.

권승진 엔지니어는 2011년부터 게임개발에 뛰어들어 카트라이더 라이브 서비스와 메이플블리츠X 개발, 왓스튜디오 신규 게임 개발 등에 참여했다. 지난 2018년 NDC에서 메이플블리츠X를 소재로 언리얼엔진 최적화에 대한 발표를 진행하기도 했다. 2020년에 AI 엔지니어로 직업을 바꿨다. 현재 넥슨코리아 인텔리전스랩스 머신러닝파트에서 머신러닝 엔지니어로 일하고 있다.

그는 이날 AI 기술을 활용한 FGT 참가자의 얼굴 표정 분석 프레임워크 개발 사례를 소개했다. FGT(포커스 그룹 테스트)는 이용자들을 나이, 성향, 게임 숙련도 등의 특성에 따라 구분해 각 계층별로 게임을 즐기게 하고 반응을 살펴 게임성을 검증하고 타깃층을 파악하는 분석모델이다. 해외 유명 게임사들의 경우 이런 이용자의 경험을 연구하는 종사자들이 다수 근무하고 있다고 한다. 한 리포트에는 EA는 110명, MS는 60명, 라이엇게임즈는 70명, 유비소프트는 105명을 고용하고 있는 것으로 조사됐다.

다만 FGT의 경우 참가자를 모집하고 테스트를 진행하고 보상도 지급해야 하는 등 시간적, 금전적 비용이 발생한다. 많이 시도하고 더 많은 것을 시도할수록 결과가 좋아지지만 제약이 존재하는 것이다.

이에 권 엔지니어는 AI를 이용해 참가자의 얼굴 표정을 분석하면 어떨까라는 아이디어가 생겼다고 설명했다. 이에 연구자가 실시간으로 참가자의 게임 플레이 화면과 얼굴을 확인하면서 표정까지 분석할 수 있는 시스템을 있으면 좋겠다고 생각했다.

그 과정에서 기존 얼굴 분석 솔루션을 살펴본 결과 1개 이미지 처리에 1원~1.5원의 비용이 발생하고 10분 분량의 영상을 1초에 3회씩 약 1800회 분석할 경우 10분당 2000원의 비용이 드는 것을 확인했다. 다만 최대한 많은 테스트를 진행하고 분석하는 것을 목표로 삼아 직접 시스템을 개발하기로 했다.

권 엔지니어에 따르면 해당 시스템 구축에 필요한 요소는 얼굴 인식, 감정 분석, 화면 응시 여부 판단 등이었다. 테스트 참가자의 얼굴을 인공지능이 정확하게 인식하는지, 표정에 담긴 감정을 정확하게 분석하는지, 참가자가 화면을 명확하게 바라보고 있는지 등이다.

이중 얼굴 인식 부분에서는 세가지 주요 기준인 정확도, 환경 변화에 대한 대응력, FPS(처리속도) 중 FPS에 초점을 맞췄다. 넥슨이 추구하는 기능은 인위적인 환경 조성이 가능해 참가자의 얼굴의 위치가 일정 수준 고정되고 주변의 밝기나 배경 등도 고정되기 때문이다.

권 엔지니어는 여러 모델을 실험하기 위해 ‘페이퍼스위드코드’ 사이트를 방문해 자료를 수집했다고 한다. 얼굴 인식 모델로는 MTCNN, LFFD, 레티나페이스, 울트라라이트 등을 살펴봤고 벤치마크 결과 울트라라이트가 가장 FPS가 좋아 해당 모델을 선택했다.

감정 분석의 경우 비디오(사진), 오디오(소리), 텍스트(문자), 센서(맥박 및 근육 센서) 등의 데이터를 분석하는데 넥슨이 선택한 것은 비디오 데이터였다. 권 엔지니어에 따르면 실제 사람이 판단해도 60~70%의 정확도를 보여 딥러닝을 통한 분석이 오히려 더 정확할 수 있는 분야이기도 하다.

감정 분석을 위한 데이터셋으로는 FER플러스와 이모션넷, 어펙트넷을 소개했다. 이중 추천한 것은 쉽게 확보할 수 있는 FER플러스였다. 이모션넷과 어펙트넷도 공개된 데이터셋이지만 사용 허락이 필요하고 답변 시간도 오래 걸렸다고 한다.

여기에 얼굴 제사 모델로 테스트 참가자가 화면을 응시 중인지 확인했다. 얼굴이 어느 방향을 향하고 있는지 추론하는 기술로 X, Y, Z 축의 값을 제공해 이를 통해 응시 여부를 가늠했다.

넥슨은 이 같은 초기 설정을 바탕으로 프로젝트를 고도화했다. 초반에는 게임 플레이 영상과 얼굴 영상을 수동으로 녹화해 파이썬에서 한 장씩 불러와 분석 모델을 구동했으나 실시간으로 관찰할 수 있는 프레임워크를 구축하기로 했고 AI 기술도 적용했다.

결과적으로 연구자가 연구자가 세션을 생성하고 참가자가 접속하면 웹RTC 기술이 적용해 얼굴 영상, 오디오, 게임플레이 화면 공유가 실시간으로 이뤄지도록 구축했다. 연구자는 참가자의 얼굴과 플레이 화면을 1초에 3회씩 받아보고 분석 서버도 1초에 1회씩 받아서 분석해 이를 연구자 화면에 보여주도록 했다. 연구자가 타임라인에 실시간으로 메모할 수 있는 기능도 더했다.

넥슨은 수백회의 자체 게임 플레이와 영상 녹화 테스트를 진행해 정확도를 검증했다. 사람이 직접 표정을 분석해 분류하고 이를 AI가 분석한 결과와 비교했다.

결과적으로 얼굴 인식에 대한 판단 정확도는 98%로 나타났다. 사람이 직접 얼굴 있다고 판단했을 때를 AI와 비교했을 때 정확도가 99.9%였고 없다고 판단했을 때 AI와 비교시에는 97%였다. 얼굴이 화면에서 벗어났는지를 비교했을 때도 84%의 높은 수준의 정확도를 보였다.

감정 추론에 대한 정확도도 72%로 나타났다. 무표정, 행복, 놀람, 슬픔, 화남 등 개별 감정에 대해서는 78%, 90%, 60%, 68%, 52%의 정확도를 보였다.

권 엔지니어는 넥슨의 이런 시도가 아직은 초기 단계로 향후 별도의 처리 없이 보고서까지 생성하는 것을 목표로 하고 있다고 설명했다. 기존 정성적 보고서를 작성하는 FGT에 더해 정량적 보고서까지 작성할 수 있는 기능이 더해져 보다 탄탄한 FGT 결과를 얻을 수 있을 것이라는 기대다.

그는 “현재는 실시간 통신으로 관찰하지만 리포트 형태로 제공하는 연구와 개발도 하고 비디오만이 아닌 오디오와 비디오의 연결, 게임 내 다른 로그와의 연결도 연구하고 있다”라며 “객관적인 반응을 엿볼 수 있는 유용한 AI가 되길 바라고 만들고 있고 추후 NDC에서 더 내용을 공유할 수 있으면 좋겠다”라고 밝혔다.

이어 “이 사례가 이용자 연구에 대한 새로운 시도, AI 프로젝트를 서비스로 만드는 사례, 게임을 재미있게 만들기 위한 노력으로 봐주셨으면 좋겠다”라고 덧붙였다.

[임영택 게임진 기자]

[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Copyright © 매경게임진. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?