그 많던 가상인간은 다 어디로 갔을까

국내만 150명 넘지만 대부분 주목 못받아
딥페이크로 기술 상향평준화 뒤엔 ‘개인기’
1호 ‘로지’, 시장 선점효과 CF 등 싹쓸이
쇼호스트 ‘루시’ 입담 무기로 유튜브 인기
4인조 아이돌 ‘메이브’, 외모·실력 겸비

국내 1호 가상인간으로 인정받는 ‘로지’가 등장하는 신한라이프 광고의 한 장면. 신한라이프 제공

‘가상인간(버추얼휴먼)’의 시대다. 인공지능(AI) 기술 고도화와 컴퓨터그래픽 발전으로 가상인간 시장이 빠르게 성장하고 있다. 시장조사업체 이머전리서치는 2020년 약 13조원 수준이었던 세계 가상인간 시장 규모가 오는 2030년엔 약 680조원으로 50배 이상 성장할 것으로 내다봤다.

업계는 글로벌 시장에 선보인 가상인간의 수를 수천명 수준으로 보고 있다. 일정 수준 이상의 소셜미디어 팔로워와 팬덤을 보유한 검증된 가상인간만 간추려 소개하는 미국 사이트 ‘버추얼휴먼스’엔 현재 200명 이상이 등록돼 있다. 국내에 소개된 가상 인간만 150명을 넘는 것으로 추정된다.

하지만 그 중 현재 왕성하게 활동하는 숫자는 한 손에 꼽힐 정도다. 가상인간이 세상에 처음 선보였을 때엔 단순히 ‘신기함’만으로도 충분히 주목받는 환경이었다. 하지만 기술 발전에 따라 가상 인간의 수준은 나날이 높아졌고, 경험이 축적된 대중은 차별화된 경쟁력 없는 가상 인간들에게 더 이상 관심을 주지 않게 됐다. 지금까지 살아남은 가상 인간들에게는 뭔가 차별점이 있다는 얘기다.

국내 1호 가상 인간으로 인정받는 ‘로지(Lozy)’는 시장 선점 효과를 톡톡히 누리고 있다. 2020년 8월 당시 싸이더스 스튜디오X(로커스엑스, 네이버웹툰 인수 후 사명 변경)가 만든 로지는 지난해 광고모델과 홍보대사 등 100건이 넘는 활동으로 20억원에 육박하는 수입을 거둔 것으로 알려졌다. 최근 부산 엑스포 유치 홍보대사로 발탁됐으며, 인스타그램 팔로워도 15만명을 넘어섰다.

로지의 성공 비결로 제작진들의 끊임없는 기술적 개선 노력이 가장 먼저 꼽힌다. 초창기 로지는 3D툴을 이용해 얼굴을 만들고 대역 모델 몸에 이를 합성하는 방식으로 만들어졌는데, 제작자의 작업량이 너무 많아, 초창기 로지 영상이 많지 않은 이유가 됐다. 하지만 곧바로 AI가 대상 얼굴을 미리 학습하고 얼굴을 알아서 합성해주는 ‘딥페이크’ 방식이 도입됐고 적은 비용으로 더 빠르게 이미지와 영상을 제작할 수 있게 됐다. 현재는 거의 모든 가상인간이 딥페이크 방식을 활용한다. 이후에도 로지는 AI 보이스 제작 등 새로운 제작 기술을 계속 적용해 끊임없이 개선했다.

딥페이크 기술은 보통 합성하려는 인물의 얼굴이 잘 드러난 고화질 영상을 AI가 추출한 뒤 학습해서 대상이 되는 사람 얼굴에 프레임 단위로 합성시키는 방식이다. AI는 사람 얼굴의 눈, 코, 입 등 신체 부위의 모양, 움직임 등을 중점 학습해 어떤 얼굴도 쉽게 합성할 수 있다.

예를 들어 실존하는 배우 얼굴을 운동 선수 몸에 합성시킬 때는 학습할 자료인 배우의 얼굴 이미지나 영상이 충분하다. 하지만 가상 인간의 얼굴은 실존하는 이미지가 아니라서 딥러닝 AI의 학습을 위해서는 3D모델링, 렌더링을 통해 가상의 얼굴을 수백장, 많게는 수천, 수만장까지 만들어 내야 한다. 게다가 표정을 학습시키기 위해서는 가상의 뼈와 관절을 만들어 움직임을 제어, 표현하는 ‘리깅’ 기술로 얼굴 움직임을 추가로 학습시켜야 한다.

가상인간의 겉모습을 보다 정교하게 만들 수 있게 된 뒤엔 ‘재능’이 중요해졌다. 비주얼 테크 솔루션 기업 포바이포가 만든 롯데홈쇼핑의 ‘루시(Lucy)’는 화려한 언변으로 롯데홈쇼핑 온라인 채널에서 라이브 커머스 방송을 진행하며 ‘완판 행진’을 이어가고 있다. 유튜브 채널도 운영하는데 얼굴 합성이 까다로운 야외 콘텐츠도 큰 이질감 없이 자연스럽게 구현하고 있어 호평을 받고 있다.

루시가 라이브 방송을 통해 재능을 뽐낼 수 있게 된 것도 꽤 복잡한 기술적 발전이 있었기 때문이다. 보통 가상 인간을 활용한 콘텐츠는 상당히 많은 후보정 작업을 거치는데, 모델 촬영, 이미지 합성, 변환 후 방송 송출까지 실시간으로 구현해야 하는 라이브 커머스 방송을 하는 루시는 보정 작업 없이 초당 36프레임 이상의 완벽한 영상을 만들어 낼 수 있어야 한다. ‘리얼타임 페이스스왑’이라고 불리는 이 기술 덕에 루시는 라이브커머스, 유튜브 방송도 거침없이 할 수 있다.

로지, 루시 등 대부분 가상인간들은 모두 대역 모델이 있다. 목소리와 몸의 움직임을 대역 모델에게 맡기기 때문에 만일 모델이 바뀌면 목소리나 체형이 바뀔 수도 있다. 이런 문제를 해결할 수 있는 ‘딥보이스’ 기술이 적용된 가상인간이 4인조 아이돌그룹 ‘메이브(Mave)’다. 넷마블 자회사 메타버스엔터테인먼트의 AI 버추얼 휴먼 제작 기술과 카카오엔터테인먼트의 음악 프로듀싱의 합작으로 탄생했다.

딥보이스는 다양한 목소리를 AI가 학습하고 필요에 따라 자유롭게 합성한 뒤 가상 인간 고유의 목소리를 만드는 방식이다. 가상인간 아이돌 메이브는 누가 노래를 해도 이들 고유의 목소리로 변환이 가능하다. 지난 1월 데뷔곡 ‘판도라’를 선보인 뒤 가상인간 그룹 중 가장 높은 인기를 얻고 있다. 판도라의 공식 뮤직비디오는 2470만회 이상 조회수를 기록하고 있다.

메이브는 목소리 뿐 아니라 몸의 움직임도 100% 3D로 제작한다. 대역 모델이 존재하지만, 모델이 교체돼도 큰 문제가 없다. 콘텐츠를 만들 때마다 모델이 연기하지 않아도 되는 ‘바디스캐닝’ 방식을 이용한다. 과거처럼 센서를 착용한 모델의 움직임을 캡처하는 방식이 아니라 바디스캐너에 잠시 들어갔다 나오면 몇 분 내에 하이퍼리얼 3D 모델이 생성되고 이를 제어해 가상 인간의 움직임을 만들어 낼 수 있다.

가상인간 제작자들의 최종 목표는 대역 모델 없이 얼굴과 몸의 움직임, 목소리까지 스스로 만들어 내는 100% 자동화된 가상인간이다. 여기에 더해 챗GPT 등을 기반으로 제작자 개입 없이 인간과 대화를 이어 나갈 수 있는 수준까지 고도화하는 것도 계획하고 있다. 이런 진정한 의미의 버추얼 휴먼이 언제 등장할지 업계 관심이 쏠리고 있다.

김민석 기자

서울신문

IT/과학

그 많던 가상인간은 다 어디로 갔을까