[테크&포커스] 목소리 흉내·사투리 완벽번역… `와우포인트`로 AI 경쟁력 UP

김영욱 2024. 7. 7. 15:21
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

산업기술진흥협회 하계포럼
발음·강세 등 분석해 음성합성
영화 속 캐릭터 언어바꿔 더빙
판별하는 딥러닝서 '창조'까지
정부 투자로 선진 기업 키워야
픽사베이 제공
남세동 보이저엑스 대표가 지난 5일 제주 서귀포 롯데호텔 제주에서 열린 제30회 한국산업기술진흥협회 기술경영인 하계 포럼에서 강연을 진행하고 있다. 한국산업기술진흥협회 제공
이교구 수퍼톤 대표가 지난 5일 제주 서귀포 롯데호텔 제주에서 열린 제30회 한국산업기술진흥협회 기술경영인 하계 포럼에서 강연을 진행하고 있다. 한국산업기술진흥협회 제공

산업계에서 생성형 인공지능(AI)을 구체적으로 어떻게 활용해서 실질적 효과를 얻을지에 대한 논의가 본격화되고 있다. 그동안 반도체, 인프라, AI모델 등 AI 기술 그 자체에 쏠려있던 관심을 AI 활용과 확산으로 옮겨서 국내 산업 경쟁력을 끌어올리려는 노력에 속도가 붙고 있다.

지난 3~6일 제주 서귀포 롯데호텔 제주에서 열린 '제30회 한국산업기술진흥협회 기술경영인 하계포럼'의 화두는 'AI를 어떻게 산업현장에 녹여 넣을 것인가'였다. 산기협은 강연의 가장 큰 비중을 AI에 할애했다. AI 도입을 고려하는 기업들에 구체적인 시사점을 주고, 기업들이 서로의 경험과 고려사항을 공유하는 프로그램들이 운영됐다.

AI는 최근 제조부터 마케팅, 영화, 드라마 등 산업을 가리지 않고 혁신을 일으키고 있지만, 수년 전만 해도 이를 예상되지 못했다. 몇 년전만 해도 AI는 학습시킨 데이터를 근거로 '판별'을 잘하는 도구에 불과했고, '어디에 쓸 수 있을지'가 불분명했다. 이를 확 바꾼 게 생성형 AI다.

예를 들어 개와 고양이를 분류하는 AI를 만들 때 개 사진 1000장, 고양이 사진 1000장을 학습시킨 후 새로운 개나 고양이 사진을 보여주면 무엇인지 판별해냈다. 암도 수 많은 데이터를 학습하면 암 발병 유무를 판별해냈다. 다만, 판별 도구이자 매우 빠른 계산기 등으로만 인식됐다.

여기에서 한 발 더 나아간 것이 생성형 AI다. 생성형 AI는 딥러닝을 기반으로 만들어지지만 학습 단계에서 입력값과 결과값을 모두 넣고 학습시킨다는 데 차이가 있다. 딥러닝은 입력값에 수많은 데이터를 넣고 '얼마나 잘 가려냈는지'를 결과로 받는다면, 생성형 AI는 고양이 상반신만 입력하면 출력으로 하반신만 나오게 하는 식이다.

생성형 AI 붐을 일으킨 챗GPT는 사람의 글들을 정답으로 간주하고 학습 단계에서 일부를 지운 뒤 결과값으로 원본을 만들어내는 식으로 개발됐다. 이렇게 과정을 학습한 생성형 AI는 반도체 분야에서는 극미세 공정을 관리하고, 바이오 분야에서는 신약 후보물질을 찾는 데 쓰이고 있다. 공장의 에너지 관리와 기계 엔진 개발에도 적용됐고 IT업계에서는 코딩에 AI를 활용하고 있다.

하계포럼에서 발표자로 나선 남세동 보이저엑스 대표는 "구글과 마이크로소프트의 발표에 따르면 생성형 AI를 코딩에 활용한 결과 개발자들의 생산성이 2~3배 향상됐다"면서 "보이저엑스 개발자들도 모니터 2개 중 하나에 챗GPT를 켜두고 코딩에 쓰고 있다"고 설명했다. 보이저엑스는 AI 서비스를 개발하는 스타트업이다. 특히 AI를 활용한 음성합성 기술을 영화 등 엔터테인먼트 분야에 적용하고 있다.

수퍼톤은 AI와 음성 기술을 합쳐 새로운 콘텐츠를 생성해내는 시도를 하고 있다. 수퍼톤이 자체 개발한 음성합성 파운데이션 모델 '낸시'는 음색·발음·음고·강세 등 4개 구성요소를 빠르게 분석해 사용자와 캐릭터의 목소리를 실시간 변환한다. 이 모델은 바꾸고자 하는 A의 음색만 남겨두고 더빙하는 B로 나머지 구성요소를 합성시키는 방식이다. 예를 들어 영어를 못하는 A가 유창하게 영어를 하는 음성을 생성해낸다.

이교구 수퍼톤 대표는 하계포럼에서 디즈니 애니메이션 '겨울왕국' 캐릭터 엘사가 '영어'로 OST 'let it go'를 부르는 장면에서 캐릭터의 개성과 어조를 유지한 채 일본어와 중국어로 노래를 부르는 것을 보여줬다. 2021년 화제가 된 '오징어게임'의 한 장면에서 배우 이정재의 말을 영어와 일본어로 바꿔 보여주기도 했다.

한 사람의 목소리를 다른 나이대로 구현할 수도 있다. 수퍼톤은 디즈니플러스 오리지널 콘텐츠 '카지노'의 배우 최민식의 외형과 목소리에 AI를 적용, 30대의 최민식을 만들어냈다. 드라마 '마스크걸'에서는 배우 나나와 이한별의 목소리를 AI로 적절하게 섞어 주인공이 성형수술을 해 외형은 바뀌었지만 목소리는 유지되도록 연출했다.

이 음성합성 기술은 영화 산업에서 변화를 만들어낼 수 있다. 촬영 장소에서 잡음이 섞이거나 대본이 수정되면 '후시녹음'을 해야 했는데, AI를 활용하면 배우가 재녹음을 하지 않아도 된다. 더빙에서도 유용하다. 국내에서는 자막을 켜고 보지만 해외에서는 더빙으로 시청하는 경우가 많은데 현지 성우가 더빙을 하면 콘텐츠 내 캐릭터 목소리가 변하게 된다.

최근 콘텐츠들이 글로벌 전역에 동시 출시되는 경우가 빈번하고 성공한 배우들이 해외에 진출하는 경우가 있는데, 이들의 목소리가 다르면 콘텐츠 몰입감을 저해할 수 있다. 대신 AI로 배우가 현지 언어를 쓰듯이 음성을 합성하면 콘텐츠 몰입도를 유지할 수 있다.

이교구 대표는 "음악을 비롯한 한류에서 가장 중요한 것은 스토리텔링"이라며 "이 스토리를 어떻게 전달하고 감동을 줄 수 있느냐가 중요한데 전 세계에는 다양한 언어가 있다. 한국 배우들이 한국말로 하는 스토리텔링을 현지화 작업을 거쳐 그들의 언어와 문화에 맞게 바꿔야 한다"면서 AI를 활용하면 이를 효율적으로 할 수 있다"고 말했다.

AI는 실시간 통역도 해 준다. 오픈 AI가 지난 5월 공개한 GPT-4o는 실시간 통역을 해준다. 남세동 대표는 "AI 통역은 감정, 사투리 등을 담아낼 수 있다. 또 통역사가 특정 기술용어나 전문용어를 모를 때 발생하는 오역 문제를 완벽하게 해결해 줄 것"이라고 말했다.

하계포럼에 참석한 기업가들은 AI가 위기이자 기회라는 데 인식을 같이했다. 기술력과 자본에서 경쟁이 쉽지 않을 뿐 아니라 이공계 인력도 줄어들고 있기 때문이다.

강연자로 나선 이승윤 건국대 교수는 "기업들은 혁신적인 경험을 주는, 이른바 '와우 포인트'(wow point)를 만들어내는 데 집중해야 한다. AI는 개인화된 경험을 주는 데 중요한 역할을 할 수 있다"며 "아이유, 뉴진스 등 인기 아티스트에게 응원 메시지를 보내면 이들이 직접 답해주는 것 같은 경험을 주거나, 다이어트 도중 AI 스캐너를 통해 사진을 업로드하면 얼마나 칼로리를 섭취했는지 정확히 분석해주고 밀키트 구독으로 이어지는 서비스를 제공할 수 있다"면서 "이제 AI의 구체적인 활용을 고민할 때"라고 강조했다.

이광형 KAIST 총장은 "우리나라는 AI 경쟁에서 기술력은 '링' 위에 올라갈 정도가 되지만 GPU, 메모리 등을 구매할 자본이 부족하다. 정부의 정책적인 지원과 함께 국제 공조를 해야 한다"며 "30년전 자동차, 조선회사를 만들 듯 AI를 키워야 할 때다. 지금 시기를 놓치면 기회를 잡기 어렵다. 국가 AI 방향성을 인공일반지능(AGI)과 특화모델 중 하나로 정하고, 1~2개 선진 기업을 선정해서 집중 지원해야 한다"고 밝혔다.

김영욱기자 wook95@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?