[오늘의 DT인/팽동현의 AI人] `자비스` 꿈꾸는 음성AI 권위자… "생성형AI 다음단계 키는 음성AI"

팽동현 2023. 9. 14. 15:51
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

김남수 교수 스타트업에서 4년간 회사·학업 병행 소중한 자산
세계대회서 유수기업 제치고 우승… "최고의 연구실로 키울것"
장준혁 한양대 융합전자공학부 교수. 팽동현 기자

공학한림원 선정 '올해의 공학인' 장준혁 한양대 교수

AI(인공지능)를 주제로 다루는 콘텐츠에서 '자비스'는 단골로 등장하는 예시이자 하나의 지향점으로 거론된다. 챗GPT 등장을 시작으로 생성형AI가 세계적인 열풍을 일으키면서 그 장밋빛 미래에 대한 꿈도 커지고 있다. 하지만 마블 영화에서 '아이언맨'을 '알잘딱깔센'하게 돕는 '자비스'를 연상하면 아직 갈 길이 한참 남은 것으로 보인다.

가장 먼저 느낄 만한 차이점 중 하나는 인터페이스다. 언제 어디서든 말로 대화를 나누는 가운데 뉘앙스까지 짚어내는 영화 속 AI들과 달리, 지금의 생성형AI는 대부분 화면상에서 글을 주고받는 데 그친다. 앞서 애플 시리, 아마존 알렉사, 구글 어시스턴트, 삼성 빅스비 등 말로 불러낼 수 있는 AI 가상비서들이 처음 나왔을 때도 이용자들의 기대감은 컸으나, 창작의 영역까지 넘보는 생성형AI들에 성능에서 밀리며 이젠 그 존재감도 다소 옅어진 분위기다.

때문에 생성형AI의 기반을 이루는 LLM(대규모언어모델) 등 초거대AI 기술과 AI 음성비서 서비스의 만남을 기대하는 이들이 적지 않고, 이곳을 글로벌 생성형AI 대전의 다음 격전지로 꼽기도 한다. 이를 위한 STT(음성텍스트변환)과 TTS(텍스트음성변환)뿐 아니라 소리부터 음악까지 생성하는 기술에 대한 관심도 갈수록 높아진다.

국내 음성AI 분야 최고 권위자이자 한국공학한림원이 선정한 올해의 '젊은공학인상' 수상자인 장준혁(49·사진) 한양대학교 융합전자공학부 교수는 "지금은 우리가 꿈꿨던, 자비스와 같이 AI와 자연스러운 대화가 가능해지는 시대의 초입"이라며 "생성형AI가 다음 단계에 도달하는 키는 음성AI가 쥐고 있다"고 말했다.

장 교수가 AI의 길에 접어든 계기는 대학원 진학 과정에서 신호처리 분야에 관심을 가지면서부터다. 당시에는 향후 컴퓨터비전으로 발전하는 영상 신호처리와 음성 신호처리 둘로 나뉘었는데, 그는 다양한 기술의 기반을 이루면서도 가장 자연스러운 인터페이스라 할 수 있는 음성 신호처리에 더 끌렸다.

장 교수는 "여러 IT(정보기술)를 안정적으로 연구하기에 좋을 것 같아 택했는데 그때만 해도 이렇게 AI까지 이어질 줄은 몰랐다"며 "당시 삼성종합기술원에서 갓 부임했던 은사 김남수 서울대 전기·정보공학 교수의 첫 제자로 들어간 게 행운으로, 그때 정말 열심히 하며 많은 것을 배웠다"고 소회했다. 김 교수가 세운 벤처기업에서 연구소장을 맡아 코딩부터 마케팅까지 전반적인 회사 업무를 4년간 학업과 병행한 것도 소중한 자산으로 남았다고 한다.

음성 신호처리 분야는 전화기의 발명과 함께 한 유구한 역사를 지니다 보니 새로운 논문을 내기가 쉽지 않은 면이 있다. 하지만 장 교수는 미국 UC산타바라라에서 디지털 신호처리 분야 석학인 산지트 K 미트라 교수 밑에서 수학하던 박사후연구원 시절 1년여 만에 SCI(과학기술논문색인)급 논문 16편을 작성하며 일찍이 학계의 주목을 받았다. 서른살에 인하대 전임교수로 임용됐고 현재는 한양대에서 교편을 잡으며 음성음향신호처리 및 머신러닝연구실(ASML)을 이끌고 있다. 삼성 스마트폰 빅스비, LG 로봇 클로이, 현대차 내비게이션, 오디오북 윌라 등 음성AI와 관련해 그의 손길은 곳곳에 닿아있다.

장 교수가 그동안 주로 다뤄온 주요 기술은 종단 간 음성인식이다. 그는 "음성의 가장 작은 단위는 음소이며, 이를 분류·검출하는 음향모델은 이제 모두 딥러닝 기반으로 넘어왔다"며 "언어모델과 유사하지만 차이점이 있다면 잡음이 끼어들 수 있다는 것이고, 이를 비롯해 다양한 이유로 입력이 부정확하게 이뤄져도 단어와 단어 사이 상관관계를 바탕으로 바로잡을 필요성이 높다는 것"이라고 설명했다.

최근 LLM의 발전은 장 교수도 '자비스'에 한 발 더 가까워질 가능성을 꿈꾸게 한다. "텍스트든 음성이든 영상이든 인식에 있어서 사람의 뇌를 흉내 내는 만큼 기본적인 구조 자체는 비슷하다. 멀티모달 모델을 위해서도 학회 간 교류나 융합 시도도 활발해지고 있다"며 "신경망의 잠재 공간(latent space)에선 언어나 음성이나 결국 같은 만큼 그 간의 상관성을 이용해 더 나은 퍼포먼스를 내려는 연구 열기가 뜨겁다. 음성인식과 LLM의 결합에 대한 연구도 같은 맥락"이라고 짚었다.

장 교수는 음성합성에서 한발 더 나아가 소리·음악 생성AI에 대한 연구도 하고 있다. 챗GPT 등의 트랜스포머 구조보다는 이미지 생성AI들에 쓰이는 디퓨전 구조가 이에 더 적합하다는 게 그의 견해다. 지난 6월 장 교수 연구팀은 이 분야에서 올해 처음 열린 세계적 대회인 'IEEE(국제전기전자공학자학회) DCASE(음향 신·이벤트 감지·분류) 챌린지 2023'의 오디오 생성(Foley Sound Synthesis) 부문에서 미국 카네기멜론대 등 유수의 기업과 세계적 기업들을 제치고 우승을 차지하기도 했다.

최근 구글, 메타, 스태빌리티AI 등 AI 선도기업들도 각각 오디오 생성모델을 선보이며 연구개발에 속도를 내고 있다. 장 교수는 "영화 같은 엔터테인먼트는 물론이고 각종 산업과 국방에 이르기까지 소리 생성 AI에 대한 수요는 지금도 크고, 음악 생성 AI의 경우 아직 기술적 한계가 있지만 높은 잠재력을 지녔다"면서 "음원이나 성우 목소리에 대한 저작권 문제, AI 보이스피싱을 비롯한 스푸핑 등 부작용을 해소하기 위한 연구도 병행될 필요가 있다"고 덧붙였다.

자비스 구현을 목표로 하는 만큼 음성 속 감정을 인식하고 음성에 감정을 합성하는 것도 장 교수의 주요 연구과제로, 메타버스 활성화를 위한 핵심요소로도 보고 있다. 그는 한국어 음성데이터 확보의 중요성도 강조했다. "자국어 음성은 나라와 국민의 고유한 자산으로, 정체성과도 관련된 원천기술이다. 정책적으로 어떤 경우에라도 가져가야 할 기술"이라며 "지역별 사투리뿐 아니라 연령별·시대별 차이점을 감안해야 하는 것은 물론, 듣거나 말하는 게 불편한 이들까지 도울 수 있어야 한다"고 짚었다.

장 교수는 "공대 교수는 이론연구만 해선 안 된다. 산업과 사회가 당면한 문제를 이해하고 이를 해결한 것을 논문으로 내는 게 훨씬 가치 있다"면서 앞으로도 '임팩트 있는 연구'에 매진할 뜻을 밝혔다. 또 하나의 목표는 이미 세계적인 경쟁력을 지녔고 취업률 100%를 자랑하는 그의 연구실을 세계 최고 자리에 올려놓는 것이다. 그는 "미국 카네기멜론대, 중국 과학원과 음성AI 분야 세계 최고 자리를 놓고 치열하게 경쟁하고 있다"면서 "경쟁력 있는 음성AI를 학생들과 함께 개발에 국가에 기여하고, 학생들이 자신의 꿈을 이룰 수 있도록 최선을 다하겠다"고 말했다.

팽동현기자 dhp@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?