넷플릭스가 DVD 배송할 때부터 ‘AI 음악 추천’ 연구하던 이 남자, 글로벌 AI 오디오 서비스 내놨다[BreakFirst]

LP 레코드를 들고 한 곳을 응시하는 이교구 수퍼톤 대표. 그는 음악을 사랑하는 공학도다. 그는 “음악과 공학의 교차점을 놀이터와 일터로 삼고 있다”고 말했다. 홍진환 기자 jean@donga.com

터틀맨이 부르는 ‘새로운 시작’, 김광석이 부르는 김범수의 ‘보고 싶다’…. TV 프로그램 속 무대에서 고인이 된 가수들이 그들의 사후 발매된 노래를 부릅니다. 김광석의 떨리는 미성, 터틀맨의 굵직한 랩이 울려 퍼지자 몇몇 관객은 놀라움에 두 손으로 얼굴을 감싸 쥐거나, 눈물을 훔칩니다. 이젠 들을 수 없을 거라 생각했던 고인의 목소리가 달팽이관을 타고 흘러 들어가 잊힌 기억을 소환했기 때문입니다.

고인의 생전 목소리를 알고리즘에 학습시켜 새로운 노래를 부르게 한 곳은 2020년 세워진 AI 오디오 기업 수퍼톤입니다. 창업자인 이교구 대표는 대학에선 전기공학을 전공했지만, 음악은 늘 삶의 한 축을 차지했습니다. 2000년대 초반부터 ‘사람같이 자연스러운 노래 부르는 기술을 만들 수 있을까?’라는 호기심을 품습니다. 록 음악에 빠져 밴드 보컬을 했을 정도로 음악에 매료된 삶을 살아온 그에게는 자연스러운 물음이었습니다.

음악을 사랑한 공학도는 일탈을 감행합니다. 많은 기술 기업이 TTS(Text To Speech·텍스트 음성 변환)에 매달려 ‘말하는 AI’를 개발할 때 그는 학계도, 시장도 관심이 없던 ‘노래하는 AI’로 눈을 돌립니다. ‘소리의 힘’으로 창작의 모든 한계를 허물겠다는 꿈을 품고 20여년간 묵묵히 한 길을 걸었습니다. AI가 그야말로 세상을 뒤흔드는 와중에 수퍼톤은 지난달 실시간 음성 변환 서비스 ‘시프트’를 내놓았습니다. 그동안의 스토리를 들어보았습니다.

수퍼톤 송년회에서 이교구 대표(가운데)가 직원들과 합주하고 있다. 음악을 사랑하는 사람들로 꾸려졌다는 수퍼톤은 송년회 때 큰 무대가 있는 공간을 빌려서 공연을 한다. “내부 구성원들만 해도 밴드가 6개는 나오거든요. 원하는 사람은 아무나 무대에 올라가서 노래하고 연주해요.” 수퍼톤 제공

―대표님의 유년 시절이 궁금합니다.

강화군 아차도라는 작은 섬에서 유년 시절을 보냈어요. 그때 집에 있는 라디오를 정말 많이 들었어요. 라디오에서 흘러나오는 빌리지 피플의 ‘YMCA’같은 팝송 가사를 한글로 적어 따라 부르곤 했죠. 중학생 때 아버지가 전축, 왬!(Wham!)과 마돈나의 카세트테이프를 사주셨어요. 그때부터 본격적으로 팝에 빠져서 고등학교, 재수, 대학교 시절 밴드 활동도 했습니다. 하지만 음악을 업으로 삼을 생각은 못 했어요. 공학자적 기질도 다분했거든요. 집에 있는 전자제품을 모조리 분해한 뒤 재조립하길 즐겼고, 트랜지스터 라디오를 만드는 경진대회에서 상도 받았어요. 공학이 좋아서 대학 전공으로 전기전자공학을 택했죠.

―‘음악을 좋아하는 공학도’셨네요. 음악과 공학, 두 관심사는 어떻게 융합됐나요?

저는 록 음악을 가장 좋아해요. 백두산, 부활 등 한국의 메탈 밴드들이 나오기 시작하면서 그들의 음악을 들어봤는데 영미권 밴드 음악과 소리 자체가 굉장히 다른 겁니다. 가창이나 연주 실력의 문제는 아니었어요. 소리 자체가 빈 느낌이었죠. 실력은 비슷한데 결과물에서 차이가 나는 건 과정의 문제잖아요. 레코딩과 마스터링, 믹싱을 얼마나 정교하게 잘하느냐가 중요하다는 걸 깨달은 뒤 음악에 접목할 수 있는 기술을 제대로 배워보기로 했습니다.

빠르게 돌아가는 팽이는 누가 툭 쳐도 무너지지 않아요

이 대표는 2002년 대학 졸업 후 미국으로 넘어가 뉴욕대 음악 기술 석사, 스탠퍼드대 컴퓨터음악·음향학 박사 과정을 밟았습니다. 7년 동안 학계와 시장, 어디서도 주목받지 못했던 오디오 머신러닝 기술을 파고들었습니다. ‘남들이 뭐라 하든 내가 원하는 건 계속 밀고 나간다’는 관성. 그는 2009년 귀국해 모교인 서울대 융합과학기술대학원 지능정보융합학과 교수를 맡으면서 본격적으로 자신의 화두에 천착하기 시작합니다. 그건 바로 ‘음성 합성 기술’이었습니다.

―2009년 서울대 교수를 맡으면서 본격적으로 ‘가창 합성 기술’에 뛰어드셨네요.

당시에는 입력된 텍스트를 컴퓨터가 읽어주는 기술인 TTS가 가장 인기 있었습니다. 시각장애인 정보 전달, 오디오북 등 접목할 수 있는 분야가 많아 빠르게 개발이 이뤄지고 있었죠. 하지만 전 말하는 기술엔 관심이 가질 않았습니다. 워낙 많은 사람이 뛰어든 분야라 그 시장에 들어가면 저도 ‘고인물’이 될 것 같았어요. 아예 새로운 영역을 탐구하고 싶었습니다.
음성은 음악을 구성하는 중요한 요소이기에 자연스럽게 목소리에 관심이 갔습니다. 당시 한국 음성 합성 기술은 일본, 미국에 비해 현저히 뒤처져 있었어요. 컴퓨터로 트럼펫, 베이스, 피아노 등 모든 악기를 연주를 할 수 있는 1인 창작 시대는 진즉 왔는데, 노래하는 목소리는 제대로 구현하지 못했죠. 일본 야마하가 선보인 음성 합성 프로그램 ‘보컬로이드’가 주목받던 시점이라 ‘한국에선 우리가 나서보자’ 싶었습니다. 경쟁 기업이랄 것도 없었습니다.

―주목받지 못하던 기술에 일찌감치 뛰어들어 한 우물만 파셨는데요. 그 원동력은 뭔가요?

‘내가 원하는 걸 계속한다’는 내면의 관성이 강하게 있어요. 돌아가는 팽이를 누가 옆에서 툭 치면 금방 풀어지고 빙글빙글 돌잖아요. 그런데 아주 빠르게 돌아가고 있는 팽이는 구심점이 있기 때문에 잘 풀어지지 않아요. 제겐 확고한 구심점이 있었고, 그걸 중심으로 빠르게 돌고 있었기에 주변의 유혹에 흔들리지 않을 수 있었어요. 내가 재밌는 걸 열심히 하면 일정 수준에는 도달할 것이라는 생각으로 한 우물만 판 게 지금의 저를 만들었다고 생각해요. 가만히 있는 것도 관성이지만 계속 움직이려는 것도 관성이니까요.

고인이 된 가수들이 수퍼톤의 가창 합성 기술로 부활했다. 왼쪽은 2013년 위암으로 세상을 뜬 울랄라세션의 임윤택이 2022년 티빙 ‘얼라이브’에서 ‘서쪽하늘’을 열창하는 모습. 터틀맨은 2020년 엠넷의 AI 음악 프로젝트 ‘다시한번’에서 드라마 ‘이태원클라쓰’의 OST ‘새로운 시작’을 불렀다. 유튜브 캡처

2022년 디즈니플러스 드라마 ‘카지노’에서 차무식 캐릭터를 연기한 배우 최민식. 그는 극 중 30대에서 60대를 오간다. 수퍼톤은 AI 보이스 디에이징 기술로 그의 30대 목소리를 만들어냈다. 최민식이 20~30년 전 연기했던 서울의 달(1994년), 파이란(2001년), 올드보이(2003년) 등의 목소리를 분석해 연령별 목소리 샘플을 만들었다. 디즈니플러스 제공

어느 기업이 진짜 사람 목소리와 더 비슷하게 만드느냐가 성패를 가를 겁니다.

내면의 호기심을 집요하게 파고드니 시장의 수요는 자연스럽게 따라왔습니다. 가창 합성 기술로 그는 창작의 한계에 끊임없이 도전했습니다. 교통사고로 사지마비 장애를 입어 전성기 수준의 고음을 낼 수 없는 ‘더 크로스’ 김혁건의 샤우팅 창법을 구현한 것이 대표적입니다. 음성 합성 기술로도 영역을 넓히고 있습니다. 디즈니플러스 드라마 ‘카지노’ 속 최민식의 30대 시절 목소리를 만드는가 하면, 넷플릭스 드라마 ‘마스크걸’ 속 BJ 마스크걸의 목소리도 창조했습니다. 잠재력을 엿본 하이브는 총 490억 원을 투자해 수퍼톤을 인수했습니다.

―그렇게 2020년 수퍼톤을 창업하신 거군요.

2009년 서울대 교수 부임 이래 음악오디오연구실을 이끌면서 음성과 음악을 만드는 AI 기술을 연구하기 시작했습니다. 이 분야가 시장성이 있겠다고 판단해 연구실 사람들 3명, CTO와 COO를 영입해 총 6명이 함께 창업을 했습니다. 교수 생활 11년 만이었네요.
저희의 핵심 기술은 파운데이션 모델 ‘낸시’(NANSY, Neural Analysis And Synthesis)입니다. 음색, 발음, 음높이, 강세 등 4가지 음성 요소들을 분리하고 재합성해 높은 품질의 음성을 만들 수 있습니다. 파운데이션 모델은 말 그대로 모든 것의 ‘토대’가 되는 모델입니다. 챗GPT의 기반인 GPT(Generative Pre-trained Transformer)도 파운데이션 모델입니다. 광범위한 데이터에 대해 훈련된 딥 러닝 모델이라 수많은 사례에 사용이 가능합니다. 파운데이션 모델을 직접 개발하는 기업은 많지 않습니다. 엄청난 기술력을 요하거든요. 저희는 초기부터 음성 파운데이션 모델을 개발했고, 정교하게 버전을 업그레이드해 왔습니다. 야마하를 비롯해 많은 관련 기업들보다 1년 이상 기술력이 앞서 있다고 봅니다. 2019년 가장 크고 권위 있는 음성국제학회에서 야마하를 제치고 저희가 최우수논문상을 받았습니다.

―4월에는 말하는 즉시 사용자가 선택한 캐릭터의 목소리로 실시간 송출하는 서비스 ‘시프트’를 선보였습니다.

가창 합성에서 시작했지만 음성에 대한 시장의 요구도 커져서 음성 합성 기술도 개발하고 있습니다. 기술 개발에 앞서 포커스 그룹 인터뷰와 시장 조사를 하면서 수요를 봤습니다. 버추얼 유튜버, 스트리머 시장이 급성장하고 있거든요. 실시간으로 팬들, 구독자들과 소통할 때 자아를 다양한 방법으로 표현하고 싶거나, 익명으로 활동하고 싶은 니즈가 굉장히 커요. 가창 합성은 음역대가 넓고 섬세한 표현이 중요해 음성 합성에 있어 중요한 토대가 됐습니다. 목소리를 변조하는 수준으로 바꿔주는 기술은 있었지만, 다른 자아가 말하는 듯한 높은 품질의 음성 변환 기술은 없었거든요.

지난달 베타 서비스를 시작한 ‘시프트’를 시연해 보이는 이교구 대표. 홍진환 기자 jean@donga.com

―시프트 개발에 있어 어려웠던 부분은 뭔가요?

시프트는 빠르게 변환된다는 뜻입니다. 서비스 이름대로 가장 신경 쓴 부분은 지연시간을 줄이는 것이었습니다. 화상회의를 할 때 지연시간이 길면 소통이 아예 안 되듯, 팬과 실시간으로 소통하는데 사용되는 서비스이기 때문에 지연시간이 길어지는 걸 허용할 수 없었습니다. 기존에 있는 툴은 지연시간이 1초에 가깝습니다. 저흰 이걸 47밀리 세컨드(0.047초, 밀리세컨드는 1000분의 1초)까지 줄였어요. 그렇다고 변환되는 목소리의 퀄리티를 떨어뜨릴 순 없어요. 지연시간은 줄이면서 품질은 유지할 수 있는, 최적화된 지점을 찾기 위해 8개월을 매달려 개발했어요.

―챗GPT를 만든 미국 기업 오픈AI도 보이스 엔진이라는 유사한 기술을 선보였는데요(악용 우려로 공개하지는 않고 있다). 경쟁 기업과의 차별점은 무엇이라고 보시나요?

굉장히 섬세하고 디테일한 음성표현이 가능하다는 게 저희 차별점입니다. 음성 합성도 가창 합성만큼이나 까다롭고 어렵습니다. 노래에는 작곡가의 기본적인 의도가 있지만 말하는 것에는 따를 수 있는 틀이 없거든요. 화날 때 목소리가 커질 수도, 더듬거나 가라앉을 수도 있어요. 말하는 방식에 있어서 개개인이 각자 목소리의 마스터죠. 단순히 빠르고 큰 목소리 데이터로만 학습시킨 알고리즘으로 화난 연기를 하게 하면 굉장히 어색하고 지루하게 느껴져요. 어느 기업이 더 진짜 사람 목소리같이 만드느냐, 즉 사용자가 자연스럽게 받아들이고, 더 나아가 감동도 할 수 있는 수준의 음성을 구현하는 게 핵심적인 차별점이 될 겁니다.

이교구 대표는 단순히 ‘사람 같은’ 음성을 넘어, 영감과 감동을 줄 수 있는 음성을 AI로 만들어내길 꿈꾼다. 홍진환 기자 jean@donga.com

귀가 어마어마하게 예민한 오디오 엔지니어를 만족시키는 소프트웨어를 만들었다는 것에 보람을 느낍니다

‘기술이 올바르게 쓰이면 이리도 아름답구나.’ 2008년 심근경색으로 세상을 떠난 터틀맨이 수퍼톤의 AI 기술로 부활해 그의 사후 발표된 노래 ‘새로운 시작’을 부르는 영상에는 이런 댓글이 달렸습니다. 이 대표가 지향하는 목표도 이와 맞닿아있습니다. 그의 목표는 음성 합성 기술로 창작자의 창의성을 제한하는 벽을 무너뜨리고 확장하겠다는 것입니다.

―음성과 가창 합성 AI 기술이 앞으로 어떻게 활용되길 바라세요?

음성 합성 기술도 딥 페이크의 우려에서 벗어나기 어렵기 때문에 기술을 선하게 활용할 수 있는 방안을 늘 고민합니다. 장애가 있는 뮤지션이 노래할 수 있게 돕고, 세상을 떠난 가수의 목소리로 신곡을 녹음할 수도 있습니다. 이건 결국 창작자의 한계를 허물어주는 일입니다. 회사에 음악을 사랑하는 직원들이 많습니다. 앨범을 냈거나 밴드를 하는 분도 있어요. 창작자가 돼 봤기에, 창작자를 누구보다 잘 이해합니다. 창작자가 기술적 한계로 표현하지 못했던 것을 표현할 수 있도록 하고, 창작의 벽을 넘어서는 데 도움을 줄 수 있는 방법을 끊임없이 생각합니다. 아티스트와 상호작용하면서 기술도 더 좋은 방향으로 나아갈 수 있다고 생각해요.

―수퍼톤을 어떤 기업으로 키우고 싶으신가요?

헤드폰 종류가 5만 가지가 넘는다는 건 그만큼 귀가 예민하고 섬세하다는 뜻이에요. 수퍼톤이 지난해 12월 B2C(기업과 소비자 간 거래)용으로는 처음 선보인 음향 장비용 플러그인은 벌써 200여 개국에서 매달 3만 명이 사용하고 있어요. 귀가 어마어마하게 예민한 오디오 엔지니어들을 만족시키는 국산 소프트웨어를 만들었다는 것에 보람을 느낍니다. 예민하고 까다로운 소비자들을 만족시키는 제품을 만들고 싶어요. 궁극적으로는 오디오 분야를 대표하는 기업이 되고 싶습니다. ‘퍼스널 PC=애플 컴퓨터’, ‘전기차=테슬라’처럼 ‘오디오=수퍼톤’이라는 등식이 성립되게 만들 겁니다.

―사업가가 아닌 ‘연구자 이교구’를 매료시키는 주제는 뭔가요?

궁극적으론 난청을 해결하는 기술을 만들고 싶습니다. 귀는 소리라는 외부의 신호를 받아들이는 기관이에요. 그 신호를 해석하는 것은 뇌입니다. 잘못된 해석이 난청으로 이어지기도 하죠. 난청은 노화의 일종이기에 누구도 피해 갈 수 없습니다. 심한 난청을 앓는 이는 타인과의 소통에 어려움을 겪고, 사회적으로 점점 고립됩니다. 노인성 치매가 난청과 관련이 깊다는 사실은 연구로 검증됐어요. ‘청각적 뇌’의 원리를 규명해서 난청 환자들이 제대로 듣고, 편하게 소통할 수 있는 기술을 개발하고 싶습니다.

유년 시절 사랑한 공학과 음악을 업으로 삼은, ‘덕업일치’의 삶을 살아가고 있는 이교구 대표. 그의 궁극적 지향점은 ‘누구나 원하는 목소리로 콘텐츠를 만들고 즐길 수 있는 제작환경을 구축하는 것’이다. 홍진환 기자 jean@donga.com

아침 식사가 왜 영어로 Breakfast인지 아시나요? Fast는 ‘금식’이란 뜻입니다. Break Fast는 ‘금식을 깬다’는 의미죠. BreakFirst는 이른 아침 당신의 허기를 가장 먼저 깨주는 뉴스레터입니다. 초심을 잊은 당신, 관성에 매몰된 당신을 위해 다양한 업계에서 ‘처음’을 만들어낸 이들을 만납니다.

매주 월요일 오전 7시 30분 발송되는 ‘관성을 깨는 1분, BreakFirst’ 뉴스레터를 구독하고 권태와 졸음을 영감과 혁신으로 채워 보세요. 구독자에게만 공개된 영상 인터뷰도 확인할 수 있습니다.

▶뉴스레터 구독
https://www.donga.com/news/Newsletter?p0=70010000001050&m=list

김재희 기자 jetti@donga.com

이 기사에 대해 어떻게 생각하시나요?

동아일보에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT

넷플릭스가 DVD 배송할 때부터 ‘AI 음악 추천’ 연구하던 이 남자, 글로벌 AI 오디오 서비스 내놨다[BreakFirst]