"게임과 만난 넷마블 음성합성 기술… 몰입감 넘쳐요"

김영욱 2024. 8. 28. 08:13
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

"게임할 때 소리를 끄고 플레이하는 이용자도 많지만, 사운드가 얼마나 풍부하느냐는 게임 퀄리티를 결정 짓는 중요한 요소다. 음성합성 기술이 발전하고 상용화된다면 게임의 전체적인 품질이 향상되고 몰입감 넘치는 경험을 제공할 수 있다."

홍윤석 넷마블 AI 센터 마젤란실 음성언어AI팀장은 최근 본지와의 인터뷰에서 게임에서의 음성합성 기술 필요성을 강조했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

캐릭터 개성 살릴 수 있는 목소리 생성
IP 몰입도 유지...현지화 작업 최소화
"게임 퀄리티 높이고, 비용은 줄이고"
홍윤석 넷마블 AI센터 마젤란실 음성언어AI팀장. 넷마블 제공

"게임할 때 소리를 끄고 플레이하는 이용자도 많지만, 사운드가 얼마나 풍부하느냐는 게임 퀄리티를 결정 짓는 중요한 요소다. 음성합성 기술이 발전하고 상용화된다면 게임의 전체적인 품질이 향상되고 몰입감 넘치는 경험을 제공할 수 있다."

홍윤석 넷마블 AI 센터 마젤란실 음성언어AI팀장은 최근 본지와의 인터뷰에서 게임에서의 음성합성 기술 필요성을 강조했다.

음성합성 기술은 인공지능(AI)을 활용해 사람의 목소리를 합성하거나 생성하는 기술이다. A라는 사람의 목소리에서 음색, 발음, 음고, 음량 중 음색을 제외한 3가지 요소를 제거하고 원하는 조건에 맞는 새로운 B라는 목소리를 만들어낼 수 있다. 예를 들어 20대 여성 목소리 하나만 있어도 어린애부터 노인까지 전 연령대와 남자 목소리까지 만들 수 있다.

음성합성 기술은 지식재산권(IP)의 문맥을 이어갈 수 있다는 강점이 있다. 게임을 비롯한 영화, 드라마, 애니메이션 등 콘텐츠는 글로벌 시장에 선보일 때 현지화 작업이 필수적이다. 우리나라는 '자막'으로 보는 것이 익숙하지만 해외에서는 '더빙'을 선호해 현지 성우와 협업해야 한다. 현지 성우와 협력하면 언어에 따라 캐릭터나 배우의 목소리가 달라지게 돼 일관된 경험이 힘들다. 일본 애니메이션 캐릭터나 해외 배우의 팬들이 한국어로 더빙된 영상을 시청할 때 거부감을 느끼는 것도 목소리 때문이다. 음성합성 기술을 활용하면 하나의 목소리가 다양한 언어를 구사해 콘텐츠 몰입도가 훼손되지 않는다.

최근 게임업계가 웹툰, 애니메이션 기반 게임을 개발하는데, 같은 캐릭터라도 원작 성우와 게임 성우 목소리의 차이가 크면 원작 팬들이 거부감을 느낄 수 있다. 넷마블은 '나 혼자만 레벨업: 어라이즈' 개발 당시 IP 몰입도를 유지하기 위해 '나 혼자만 레벨업' 애니메이션 성우들과 협업해 캐릭터 음성을 녹음했다. 이를 통해 IP 몰입도를 유지한 결과 '나혼렙'은 넷마블 2분기 매출의 20%를 차지하는 효자 게임으로 자리잡았다.

캐릭터 개성과 완벽히 부합하는 성우를 찾는 것도 어려움이 있는데 AI를 도입하면 고민을 덜 수 있다. 넷마블은 캐릭터와 어울리는 목소리를 생성하는 데 음성합성 기술을 활발하게 쓰고 있다. 개발 중인 신작 캐릭터 음성 제작에도 AI를 도입했다. 홍 팀장은 "국내 성우 풀이 한정돼 있다 보니 캐릭터에 어울리는 성우를 찾기가 어렵다. 캐릭터와 어울리는 목소리를 AI로 생성하는데 도전하고 있다"고 말했다.

비용 절감 효과도 기대된다. 주인공 캐릭터는 성우가 연기하되 중요도가 떨어지는 캐릭터는 AI에 맡기는 식이다. 홍 팀장은 "성우를 대체하는 게 아니라 전체 게임 퀄리티를 높이는 것에 집중하고 있다"며 "성우 한 명이 캐릭터 10명 분량을 녹음하기도 하는데, AI를 쓰면 전혀 다른 느낌의 목소리를 얻을 수 있다"고 부연했다.

스킬 효과음, 배경음, 감탄사 등 게임 환경음도 AI로 구현하기 위해 도전하고 있다. 홍 팀장은 "감탄사, 게임 이펙트, 배경음 등을 구현하려 한다"면서 가장 어려운 요소로 '감탄사'를 꼽았다.

"웃는 것만 해도 소리를 듣고 어떤 사람인지 구분할 수 있는 특징이 담겨 있다. 게임 성우들은 감정을 극대화해서 연기한다"며 "챗GPT는 자연스러움을 위해 감탄 부분이 절제돼 있는데 게임은 과하게 웃는 게 필요하다 보니 극복해야 하는 부분이 있다"고 했다.

그는 "AI를 활용해서 관심받는 게임이 아니라, 이용자들이 게임을 재미있게 즐기다가 '이게 AI로 제작됐어?'라는 반응이 나올 수 있도록 하려 한다. 또 게임 개발의 번거로운 과정을 줄여 개발자들이 'AI가 없을 때는 어떻게 했지'라는 생각이 들도록 하는 게 목표"라고 밝혔다.김영욱기자 wook95@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?