“120만시간 학습한 AI 성우… 유튜브·인스타 점령했죠” [스케일업리포트]

■네오사피엔스
감정톤·대본 넣으면 목소리 생성
창수·발키리·찬구 등 ‘스타’ 탄생
SNS 인기 속 고객 280만명 확보
창업 초기부터 AI TTS 개발 힘써
거대언어모델 SSFM으로 차별화
피지컬AI 겨냥 대화 솔루션 매진

“이번에 트럼프가 말이여~”

몇 해 전부터 유튜브 쇼츠와 인스타그램 릴스를 점령한 목소리가 있다. 은은한 충청도 사투리 억양이 배어있지만 누구보다 바쁘다는 듯이 성급히 말을 뱉는 젊은 남성, 창수가 주인공이다. 창수의 목소리는 주로 경제 혹은 시사 관련 짧은 영상 콘텐츠에 주로 쓰이고 있다. 수많은 소셜미디어(SNS) 채널이 창수의 목소리를 팟캐스트 아나운서처럼 사용하는 중이다. 창수는 때론 목소리를 높이며 들뜬 감정을 표현하기도, 때론 말하는 속도를 가다듬으며 진중한 분위기를 잡기도 한다.

창수 목소리의 원래 주인은 2003년 데뷔한 베테랑 성우 현경수 씨. 셀 수도 없이 많은 SNS 계정이 창수 목소리를 쓰지만 현 씨는 창수의 목소리를 새로 녹음하지 않는다. 현 씨가 이전에 녹음했던 목소리가 인공지능(AI) 학습을 거치며 끊임없이 재생산되고 있기 때문이다. 사용자가 AI에게 대본을 입력하고 필요한 감정 톤을 지정하면 곧바로 살아 움직이는 듯한 창수의 목소리가 생성된다. AI 성우 서비스 ‘타입캐스트’로 성우 서비스를 이용하는 모습이다.

타입캐스트를 개발한 네오사피엔스의 김태수 대표는 25일 서울경제신문과 만나 “창수 외에도 항상 화내는 여성 캐릭터인 발키리나 인터넷 생방송에서 후원금 메시지로 자주 쓰이는 찬구 등 인기 캐릭터들이 많다”며 “타입캐스트엔 이런 캐릭터가 682개”라고 소개했다.

LLM으로 만든 AI 목소리 캐릭터만 682개

타입캐스트는 스타트업 네오사피엔스가 2019년 11월 출시한 AI 음성합성시스템(TTS) 서비스다. TTS는 문자를 인공 음성으로 읽는 컴퓨터 프로그램을 뜻한다. TTS 개념은 1990년대부터 태동했으며 2000년대와 2010년대에도 전자기기 화면 읽기 서비스, 대중교통 안내 음성 등에 널리 쓰였다. 다만 당시 TTS는 미리 녹음된 음·어절을 조합해 문장을 만들었기에 부자연스럽다는 인상을 줬다.

이와 달리 타입캐스트는 실제 사람이 문자를 읽는 듯한 자연스러운 발성을 구현하는 데 성공했다. 말하는 속도, 목소리 높낮이, 대사를 읽을 때 실리는 감정 등을 사용자가 쉽게 구현할 수 있다. 타입캐스트는 출시 후 유튜브 채널에서 자신의 목소리를 직접 드러내지 않고 영상을 제작하는 이들에게 큰 인기를 얻었다. 특히 구독자 300만 명을 보유한 요리 유튜브 채널 ‘1분요리 뚝딱이형’에 등장하는 젊은 남성과 어린이의 목소리가 모두 타입캐스트로 만들어졌다는 사실이 뒤늦게 알려지면서 화제를 모으기도 했다.

김 대표는 “타입캐스트 출시 여섯 해가 넘어가고 현재 기준 누적 가입자 수는 280만 명 이상”이라면서 “서비스 이용 고객 중 60%는 개인 콘텐츠 제작자로 보이며 나머지 40%가 기업 혹은 기관 고객”이라고 설명했다. 타입캐스트는 682개의 서로 다른 목소리 캐릭터를 제공하면서 각 목소리의 세밀한 발성 조정을 구현했기에 인기를 끌 수 있었다.

이처럼 타입캐스트가 많은 목소리를 운용하면서도 자연스러운 발성을 구현할 수 있던 이유를 묻자 김 대표는 막대한 양의 학습 데이터와 꾸준한 AI 모델 업데이트를 꼽았다. 그는 “네오사피엔스가 자체 개발한 모델에 투입된 음성 학습 데이터의 양은 120만 시간이 넘는다”고 언급했다. 문자와 문자를 읽은 올바른 음성 데이터를 연결한 후 이 연결된 데이터를 AI에게 다량으로 학습시켰기에 더욱 자연스러운 대본 읽기가 가능해졌다는 설명이다. 김 대표는 “다른 기업과 정확한 학습량 비교는 어렵겠지만 전 세계적으로 따져도 다섯 손가락 안에 충분히 들 것”이라며 자신감을 내비쳤다.

김 대표가 강조한 또 다른 차별화 지점은 AI 모델이다. 네오사피엔스는 직접 개발한 대규모언어모델(LLM)인 ‘SSFM’으로 타입캐스트를 운용하고 있다. LLM은 자연어의 복잡한 구조를 해석하고 학습하는 데 적합한 AI 모델로 꼽히며 생성형 AI 서비스의 품질을 결정하는 데 중요한 역할을 한다.

김 대표는 “어떠한 목소리나 감정, 언어든 생성할 수 있는 능력을 학습했다”며 “사람에 비유하면 모든 목소리를 금세 따라 하는 코미디언과 같다”고 언급했다. 이어 “타입캐스트 이용자들이 자연스러운 음성을 만드는 데이터가 누적되면 SSFM은 강화 학습 등을 거치며 더 자연스럽게 표현하는 모델로 거듭난다”고 덧붙였다.

김태수 네오사피엔스 대표가 25일 서울 강남구 네오사피엔스 사무실에서 서울경제신문과 인터뷰를 하고 있다. 조태형 기자

“AI 목소리 시장 개화”에 베팅하며 창업

연 매출 106억 원을 달성하는 등 네오사피엔스는 현재 안정적으로 성장하고 있지만 창업 초기 사업은 순탄하지 않았다. LG전자와 퀄컴 등에서 음성 관련 엔지니어로 일했던 김 대표는 이세돌 9단과 알파고의 대국이 있던 2016년 무렵부터 AI를 예의주시하기 시작했다. 학계뿐만 아니라 업계에서도 AI 관련 논문이 쏟아지기 시작하던 때였다. 김 대표는 ‘AI가 보고 듣고 말하는 세상이 온다면 내 실력을 발휘할 수 있는 분야는 말하기일 것’이라는 판단을 내리고 창업에 뛰어들었다.

이듬해 김 대표는 퀄컴에서 나와 네오사피엔스를 설립했다. 창업 직후부터 타입캐스트를 개발한 것은 아니었다. 딥러닝 기반 TTS 기술을 가지고 있었으나 시장의 주목을 받지 못했다. 기존 TTS 대비 자연스러운 감정 표현은 강점이었지만 문제는 음성 생성에 필요한 계산량이 많아 서비스 구동이 느렸다. 2년간 여러 시도 끝에 회사는 2019년 마지막 도전에 돌입했다. SNS 콘텐츠 크리에이터를 위한 TTS 서비스를 만드는 것이었다. 사업 아이디어는 페이스북이나 블로그 등 글로 활동했던 이들이 유튜브 진출을 원하는 데 마땅한 목소리를 구하기 힘들다는 수요에서 시작됐다. 2019년 4월 무료 버전의 시범 서비스가 출시됐다. 캐릭터 수는 20개를 밑돌았다. 무료 버전이었기에 성우 목소리 지식재산권 문제가 해결되지 않아 상업용 콘텐츠에도 쓸 수 없었다. 그런데도 고객들의 반응은 뜨거웠다. 김 대표는 “시범 서비스를 쓴 고객들 사이에서 ‘돈을 낼 테니까 상업용으로 쓸 수 있게 해달라‘는 요구가 쇄도했다”고 회상했다.

창업 초기 회사가 자리를 잡지 못할 때도 비용을 투자하며 AI TTS 개발을 놓지 않은 이유를 묻자 김 대표는 “해볼 만한 베팅(내기)이었다”고 답했다. 그는 “지금까지 모든 기술 발전의 역사를 고려했을 때 신기술이 기존 기술을 곧바로 대체하지 못하는 법”이라며 “시간이 지날수록 기술 개발 속도가 빨라지고 투자 비용도 낮아지는 만큼 AI TTS도 기존 시장을 무너뜨릴 수 있다고 확신했다”고 전했다.

네오사피엔스의 다음 발걸음은 영상 밖에서 쓰일 AI 목소리 시장을 선점하는 것이다. 피지컬 AI 등이 부상하면 사람과 AI 간 소통에 가장 필요한 도구가 목소리일 것이란 게 김 대표의 전망이다. 김 대표는 “피지컬 AI가 대중화됐을 때 목소리는 피지컬 AI의 첫인상을 결정짓는 디자인 요소가 될 것”이라며 “네오사피엔스의 사업도 AI TTS에서 대화형 AI 솔루션으로 확장할 것”이라고 말했다.

김태호 기자 teo@sedaily.com조태형 기자 phototom@sedaily.com

서울경제에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

“120만시간 학습한 AI 성우… 유튜브·인스타 점령했죠” [스케일업리포트]