美 트럼프, 한국어 배웠다? 세계 놀래킨 이 목소리 알고보니…

김성휘 기자 2024. 6. 3. 09:54
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[스타트UP스토리] 김태수 네오사피엔스 대표

[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]

김태수 네오사피엔스(타입캐스트) 대표 인터뷰 /사진=김휘선 기자 hwijpg@

'1분요리 뚝딱이형'은 구독자 279만명의 유튜브 채널. 1인칭 시점으로 화면엔 요리와 손만 보이고 성인남성 '뚝딱이형'과 초등학생인 것같은 남자 어린이 목소리가 들린다. 그런데 이들은 사람이 아니다. AI(인공지능) 프로그램으로 생성해 낸 가공의 목소리다.

이 채널 운영자는 따로 있지만 음성은 전문회사의 솔루션 '타입캐스트'를 썼다. 네오사피엔스가 운영하는 AI캐릭터 음성 서비스다. 이 회사는 KAIST 시절부터 음성 추출과 머신러닝을 통한 목소리 합성을 연구한 김태수 대표가 2017년 창업했다. 김 대표는 LG전자, 퀄컴을 거치며 독보적인 음성 기술을 가다듬었다.

그는 최근 미국 실리콘밸리를 오가며 해외진출에 박차를 가하고 있다. 이달에 잠시 귀국, 서울 삼성동 사무실에서 만난 그는 "세계 200여개국에서 타입캐스트에 접속하고 있다"며 "서비스하는 언어도 9개에서 올 상반기 30개로 늘릴 것"이라고 말했다.
타입캐스트 샘플화면

"이것도 AI 목소리?" 美 진출도 추진
뚝딱이형뿐 아니라 수많은 유튜브 및 콘텐츠 채널이 인공지능 성우(AI 음성)를 쓰고있다. 그중 타입캐스트가 대표적이다. 이마트 매장 안내방송, 골프존 코스가이드 목소리, LG유플러스의 오디오북 등에도 쓰인다. 텍스트를 읽어주는 서비스는 전에도 있었지만 타입캐스트는 다양한 상황에 맞는 표현이 가능하다.

대형마트 안내방송이나 스포츠경기 중계는 들뜨고 유쾌한 목소리가, 뉴스앵커는 차분하고 전달력 좋은 목소리가 적합하다. 화남, 슬픔, 기쁨 등 다양한 감정표현까지 가능한 사실은 2021년 한 방송사의 다큐멘터리로 확인됐다. '너를 만났다' 프로그램은 세상을 떠난 가족의 목소리를 되살렸다. 여기서 복원한 목소리가 이 회사 작품이다.

김 대표는 "타입캐스트는 이질감을 느끼기 어려울 만큼 자연스러운 음성과, 미세한 감정표현까지 할 수 있는 기술력이 강점"이라며 "한 고객사에서 시제품을 듣고 '이 사람 누구냐'고 물었을 정도"라고 말했다.

김태수 네오사피엔스(타입캐스트) 대표 인터뷰 /사진=김휘선 기자 hwijpg@

김 대표는 음향, 음성에 관심이 많던 공대생이었다. KAIST 석박사 시절에도 '목소리' 연구에 매진했다. 대학원생이던 2001년경 음성으로 조명을 켜고 끄는 등 '홈 AI' 기반이 되는 음성기술을 개발했다. 퀄컴에선 스마트폰 마이크가 사용자의 주변 소리를 인식, 반응할 수 있는 기술을 개발했다. 그가 쓴 20여편의 논문은 관련 학계와 산업계에 수차례 인용될 정도다. 하지만 연구개발이 곧장 시장으로 이어지는 건 아니었다.

김 대표는 "기술을 하는 입장에서 뭔가를 만들어 사람들의 생활을 바꾸고 더많은 사람들이 사용하면 좋겠다는 생각을 항상 했다"며 "2016년 건강문제를 겪으면서 '하고싶은 게 있으면 지금 해보자'는 결심을 했다"고 말했다.

때마침 2016년 이세돌과 알파고의 바둑대결이 벌어졌다. 김 대표는 '일상을 바꿀 AI'를 화두 삼아 이듬해 창업하고 자신의 전공인 음성합성으로 비즈니스모델을 가다듬었다. 네오사피엔스가 2018년에 만든 도널드 트럼프 당시 미국 대통령의 한국어 목소리는 미국에서도 화제가 됐다. "내 이름은 도널드 트럼프입니다"로 시작하는 음성은 다소 어눌한 한국말이지만 오히려 사실적으로 들렸다.
유튜브채널 '1분요리 뚝딱이형'은 두 명의 가상 캐릭터간 대화로 진행한다./사진=유튜브 화면
KAIST·퀄컴 출신 김 대표 "목소리 도용, AI라서 문제인 건 아냐"
이 같은 서비스는 이른바 '보이스 오버' 산업으로 불린다. 김 대표는 AI 음성 사용이 늘면 음성을 사용하는 기존 직업군을 잠식하는 게 아니라 보이스오버 시장 전체를 키울 수 있다는 구상이다. 성우든 합성음성이든 메시지를 효과적으로 전달하기 위한 콘텐츠 제작 수요는 늘어날 것으로 보기 때문이다. 시시각각 달라지는 정보를 제때 반영, 수정할 수 있는 점도 AI 음성의 특징이다.

김 대표는 "AI 음성과 실제 사람이 녹음하는 것(휴먼 보이스)을 포함, 올해 글로벌시장규모는 24억달러(3조2500억원)이고 2030년 58억달러(7조8000억원)로 늘어날 거란 예상이 있다"고 소개했다. 이어 "AI 음성기술은 사람이 직접 녹음하는 데 드는 시간과 비용을 획기적으로 절감할 수 있다"며 "콘텐츠 크리에이터뿐 아니라 광고, 라이브방송, 버추얼휴먼 등 다양한 산업군으로 확대될 것"이라고 말했다.

네오사피엔스 개요/그래픽=조수아

본인 동의없는 목소리 샘플 사용은 논란이 된다. 최근 오픈AI가 배우 스칼렛 요한슨의 동의 없이 그의 목소리를 이용다는 의혹이 파장을 낳았다. 네오사피엔스는 이 부분에 선제적인 대응을 해 왔다고 밝혔다.

골프존의 경우 치어리더 박기량씨 등 유명인의 목소리를 쓰면서 당사자의 동의를 구했다. 타입캐스트 AI캐릭터에 목소리를 제공한 다른 성우들에게도 일종의 목소리 초상권에 대한 보상을 준다. 'X파일' 멀더 요원 목소리 주인공인 이규화 성우도 그 중 한 명이다.

김 대표는 "(목소리 도용은) 사람이 하더라도 범죄이지 AI가 해서 문제다 하는 것은 논점에서 벗어난다고 본다"며 "목소리 사용을 원하지 않는 경우 이를 타입캐스트와 같은 플랫폼에 미리 등록해 도용을 막는 방법도 가능할 것"이라고 제안했다.

최근 김 대표는 미국에 머무는 날이 많다. 앞서 256억원 규모의 시리즈B 투자엔 미국 실리콘밸리 투자사 블루런벤처스의 아시아 지역 플랫폼이 참여했다. 그는 "한국에서 '타입캐스트 아니면 안 돼' 하는 팬들이 더 많아지게 하고 올해 미국 등 해외에서도 그와 같은 사례를 만드는 것이 목표"라고 말했다.

[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']

김성휘 기자 sunnykim@mt.co.kr

Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?