엔씨의 야심작 '디지털 휴먼'… 게임업계 패러다임 바꿀 것

김대기 기자(daekey1@mk.co.kr) 2023. 4. 10. 16:03
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

엔씨소프트가 선보인 디지털 휴먼 'TJ Kim'의 영상을 배경으로 이제희 엔씨소프트 최고연구책임자(CRO·오른쪽)가 포즈를 취하고 있다. 박형기 기자

지난 5일 엔씨소프트 판교 R&D(연구개발)센터. 입구에 들어서자 대형 스크린 영상에 등장한 디지털 휴먼 'TJ Kim'이 눈길을 사로잡았다. 'TJ Kim'은 김택진 엔씨소프트 대표를 오마주한 가상인간이다. 김 대표의 표정과 목소리, 몸짓까지 생생하게 재현하면서 엔씨소프트가 현재 개발 중인 신작 게임을 설명하는 모습이 인상적이었다. 앞서 지난달 미국 샌프란시스코에서 열린 '게임개발자콘퍼런스(GDC) 2023'에서 처음 공개된 'TJ Kim'은 글로벌 테크 기업의 큰 주목을 받았다. 인공지능(AI)과 비주얼 기술이 집약된 디지털 휴먼이 게임은 물론이고 다양한 분야에 접목돼 새로운 산업 지평을 열 것이란 기대감 때문이었다.

요즘 챗GPT 등장으로 AI 열풍이 뜨겁게 불고 있지만 엔씨소프트는 10여 년을 앞서 AI의 미래를 내다보고 AI 투자와 연구에 열을 올려왔다. 2011년 국내 게임업계 최초로 AI 전담 조직을 세웠고, 시간이 흐르면서 보다 전문적인 연구를 위해 AI센터, NLP센터, 어플라이드 AI랩 등 삼각편대 조직을 만들었다. 현재 이 조직들은 'NC AI R&D'로 통합돼 운영 중이다. 연구인력만 300명이 넘는다. 엔씨소프트는 AI를 비롯한 신기술 확보를 위해 투자를 아끼지 않았다. R&D 비용 투자 규모는 2013년 1395억원에서 2022년 4730억원으로 10년 새 3배 이상 뛰었다. 이 기간 연평균 R&D 비용은 2802억원에 달한다. 해당 연도 매출의 약 18%를 R&D에 쏟았다. 그 결과 거대언어 모델, 기계번역, 멀티미디어 생성형 AI 등 다양한 기술을 고도화하면서 게임 영역에 신기술을 접목할 수 있는 단계에 이르렀다. 그 가능성을 열어준 기술 집약체가 바로 최근 선보인 '디지털 휴먼'이다.

디지털 휴먼 개발 프로젝트를 총괄하고 있는 이제희 최고연구책임자(CRO·부사장)를 이날 엔씨소프트에서 만났다. 서울대 컴퓨터공학부 교수 출신인 그는 딥러닝 기술과 인체 컴퓨터 모델링 분야 권위자다. 지난해 김택진 대표의 제안을 받은 뒤 엔씨소프트에서 'NC AI R&D'를 이끌고 있다. 이 CRO는 "게임은 현실을 가상 환경에서 사실적으로 재현하고 그 위에 창조적 상상력을 덧붙인 세계"라며 "디지털 휴먼 기술을 통해 현실과 가상세계를 잇는 인터랙션(interaction·상호작용) 시대를 앞당길 것"이라고 말했다. 다음은 일문일답.

―CRO로 엔씨소프트에 합류한 지 이제 만 1년이 됐다.

▷김택진 대표가 당부한 것은 단 한 가지였다. '디지털 휴먼'을 만드는 것이다. 30년 이상 연구한 분야를 실제로 구현할 수 있는 기회라고 여겨 주저하지 않고 합류했다. 엔씨소프트에 디지털 휴먼 개발 프로젝트는 회사의 미래와 직결될 만큼 중요하다. CRO로 부임하자마자 R&D 조직의 공통 목표를 선포하고, 조직 체계를 효율적으로 바꿨다. 기존 조직은 AI센터, NLP센터 등이 조직별 연구 분야에 매진하는 구조였다. 지금은 'NC AI R&D'라는 통합 조직 아래 세부 부문이 전진 배치돼 상호 유기적인 R&D가 가능한 형태로 진일보했다.

―'디지털 휴먼'에 담긴 기술은.

▷'TJ Kim'은 엔씨소프트가 보유한 AI 기술과 비주얼 역량이 집결된 결정체다. 디지털 휴먼의 표정과 말투에는 모두 AI 기술이 접목됐다. 영상의 모든 대사는 AI 음성 합성기술인 TTS(Text-to-Speech)로 만들어졌다. TTS는 사람의 목소리와 말투, 감정 등을 데이터로 축적한 뒤 입력된 텍스트를 상황에 맞는 자연스러운 음성으로 생성하는 기술이다. 표정과 립싱크 애니메이션은 'Voice-to-Face' 기술로 구현했다. 대사나 목소리를 입력하면 상황에 맞는 표정이 자동으로 생성되는 것이 특징이다.

―이 기술이 게임에 어떻게 접목되나.

▷챗GPT가 전 세계적으로 돌풍을 일으킨 가운데 엔씨소프트도 AI 기술을 활용한 게임 서비스 도입에 속도를 내고 있다. 예컨대 게이머가 게임 속 가상 캐릭터와 실시간 소통하면서 실제 사람들과 함께 게임하듯 협력 플레이를 할 수 있는 서비스가 곧 등장할 것이다. 컴퓨터가 조종하는 캐릭터 'AI NPC(Non-Player Character)'가 대표적이다. 이 같은 캐릭터가 바로 디지털 휴먼 기술로 탄생한다. 디지털 휴먼이 진화를 거듭할수록 챗GPT처럼 예측하기 힘든 불확실성 변수에 자연스럽게 대응할 수 있는 능력을 갖추게 될 것이다. 이는 현실과 가상세계 간 인터랙션을 촉진시켜 게임산업의 판도를 바꿀 것으로 예상한다.

―엔씨소프트가 추구하는 인터랙션이란.

▷단순히 사람의 외모를 닮은 디지털 휴먼이 게임 속 화면 안에 존재하는 것을 넘어 '나'와 실시간 소통할 수 있고, 나의 표정을 읽으며 반응하고 나와의 대화를 기억할 수 있을 정도의 상호작용 대상이 되는 것을 의미한다. 이 같은 디지털 휴먼을 구현하기 위해서는 다양한 기술을 유기적으로 연결하는 시스템적 사고방식이 중요하다. 딥러닝, 물리 시뮬레이션, 컴퓨터 비전 등의 기술을 하나의 시스템으로 구축하는 기술적 도전을 이어나가고 있다.

―올해 세부 목표는 무엇인가.

▷차기 신작에 접목할 대화형 디지털 휴먼을 만드는 것이 목표다. 이를 위해 현재 'NC AI R&D'에서 언어 모델 고도화 작업을 진행 중인데 11월께 게임 내에서 실시간 채팅을 할 수 있는 기술 수준까지 도달할 것으로 예상된다. 기술 개발이 완료되면 12월께 디지털 휴먼에 이식할 계획이다. 게임 개발을 지원하는 기술에 대한 연구도 심도 있게 추진할 방침이다. 엔씨소프트가 개발한 AI 기술인 '보이스 투 애니메이션'을 이용하면 하루 종일 그려야 하는 1분 분량의 게임 장면을 1분도 안 돼 완성할 수 있다. 중장기적으로는 디지털 휴먼 기술이 게임에 국한되지 않고 다양한 서비스 영역에 접목될 수 있도록 의미 있는 실험을 이어나갈 것이다.

[김대기 기자]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?