[직업탐구] 사람과 기계, 언어로 소통하다! 음성처리전문가

한겨레 2023. 5. 30. 16:57
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

사람보다 더 사람처럼 말하는 인공지능으로 미래를 그리는 음성처리전문가 인터뷰

사물인터넷에 연결된 홈 스피커를 통해 오늘의 날씨를 물어보고, 녹음된 음성이나 통화 내용을 문자로 바꿔 읽는 것이 가능한 이유는 ‘음성처리’ 기술 덕분이다. 이 분야의 역사는 사실 짧지가 않다. 1990년대부터 음성인식 제품이 상용화되고, 음성을 인식하는 자동차 내비게이션이나 스마트폰 음성인식 문자 변환이 가능해지면서 관련 분야가 발전해왔다. 그런데 최근 들어 음성처리 기술이 우리 삶에 더 가까워진 이유는 인공지능의 성능이 향상되었기 때문이라고 전문가들은 말한다.

미디어젠은 여러 언어의 음성인식과 합성 기술을 보유한 20년 경력의 음성 기술 전문 인공지능 기업이다. 이곳에서 음성처리시스템을 개발하는 사람들의 이야기를 들어봤다.

■ 음성처리전문가에게 듣는 직업 이야기

미디어젠 AI 에듀테크팀 조영선(왼쪽), 홍연정(오른쪽) 박사.사진 바림

“사람의 말소리를 입힌 인공지능으로 밝은 미래를 그려갑니다”

조영선, 홍연정 박사 / 미디어젠 AI 에듀테크팀

사람과 기계가 함께하는 세상에서 편리함과 이로움을 선사하다

음성처리 기술은 무엇이고, 이것이 접목된 시스템이 현재 일상생활에서 어떻게 활용되고 있나요?

홍연정(이하 홍)_ 세상의 모든 소리는 공기 중에 떠다니는 입자들의 파동으로 만들어집니다. 이러한 물리적인 현상을 컴퓨터가 이해할 수 있는 데이터로 변환하는 것이 ‘음성처리’ 작업이에요. 음성처리 분야에는 크게 두 가지가 있습니다. 사람의 말소리를 문자로 바꿔주는 ‘음성인식’, 단어나 문장 정보를 입력하면 음성으로 내보내는 ‘음성합성’입니다. 이 기술들은 사람의 목소리를 인식하는 여러 가지 앱이나 서비스 개발에 활용되고 있어요.

예를 들면, 우리가 스마트폰에 “OO야”라고 인공지능의 이름을 부르면 바로 알아듣고 반응을 하죠. “네. 말씀해주세요”라고요. 이때 사람의 목소리를 문자로 바꾸어 인공지능이 인식하는 과정이 ‘음성인식’이에요. 그리고 그 문자를 인식한 인공지능의 대답이 음성으로 출력되는 현상은 ‘음성합성’인 것이죠.

박사님의 설명을 들으니 쉽게 이해가 되네요. 실제로 음성처리시스템을 연구하고 개발한 사례가 있다면 소개해주세요.

조영선(이하 조)_ 유명한 배우와 가수의 음성을 똑같이 인공지능에 복제해본 경험이 있어요. 그들이 스튜디오에서 수십 개의 예시 문장을 녹음한 이후에 저는 음성처리 작업을 진행했는데요. 신기했던 점은 적은 양의 목소리만 녹음해도 인공지능이 ‘딥러닝’을 통해 당사자와 비슷한 음성으로 말하고, 심지어 노래도 할 수 있었다는 거예요. 예를 들면, 인공지능에 특정 대사를 문자로 입력만 해도 아주 자연스럽게 사람과 대화할 수 있어요. 이것이 어떻게 가능했을까요?

인공지능은 데이터 안에 있는 규칙을 통해 학습하거든요. 사람이 책을 많이 읽고 정보를 얻을수록 공부를 잘하게 되듯이, 인공지능도 많은 양의 질 좋은 데이터를 습득하면 어느 순간 일일이 학습시키지 않아도 스스로 깨우칠 수 있어요. 이 과정을 ‘딥러닝’이라고 하지요. 이렇게 되면 훈련에 쓰이지 않았던 단어도 말할 수 있게 되고, 어떨 때는 생소한 말을 알아듣기도 한답니다.

홍_ 저는 사용자의 영어 발음을 평가하는 서비스를 개발했는데요. 학습자가 영어 단어나 문장을 소리 내어 읽은 후 발음의 정확도를 백분율 점수로 책정하는 것입니다. 가령 ‘Apple’이라는 단어를 말했다면, 이 단어를 구성하는 발음의 요소 하나하나에 인공지능이 실시간으로 점수를 내줍니다. 이를 통해 학습자들은 ‘내가 에프 발음이 약하구나’ 또는 ‘번데기 발음을 열심히 연습해야겠다’ 등 부족한 부분을 정확히 깨달을 수 있어서 이 서비스를 통한 학습 효과가 눈에 띄게 좋아졌다고 해요.

미디어젠이 자체 개발한 발음평가시스템 \

음성처리 기술은 우리 주변 가까이에서 찾아볼 수 있네요. 계속해서 사람에게 이로운 방향으로 기술이 발전하고 있군요.

조_ 맞아요. 맞춤형 돌봄을 지원하는 음성인식 인공지능 서비스도 있어요. 귀여운 아이 모습을 한 ‘두리’라는 이름의 무인 돌봄 인형이 있는데요. “두리야” 하고 부르면 사람의 말소리를 인식해 어린아이의 목소리로 대답을 하고, 어르신에게 필요한 정보를 제공하죠. 만약 어르신이 노래를 불러달라고 하면 실제로 인형 안에서 노래가 재생되기도 하고, 두리가 직접 재미있는 이야기를 해드리며 적적한 어르신에게 말동무가 되어줄 수 있어요. 또, 어르신이 위급한 상황에 놓였을 때 두리에게 도와달라는 요청을 하면 음성인식 기능을 통해 119에 전화를 걸어주기도 하죠.

고령층을 위한 AI 돌봄 인형 \

이 직업이 우리 사회에 기여할 수 있는 점은 또 어떤 것들이 있을까요?

홍_ 음성 언어는 우리가 살아가면서 소통하기 위한 필수적인 수단이에요. 스마트폰을 사용하는 문화가 발달하고 컴퓨터로 대화하는 일이 많아지면서 오히려 말하는 기술이 더욱 중요해졌음을 실감해요. 특히 목소리를 내고 언어를 구사하기까지 어려움이 있는 어린아이들, 말하는 것에 장애를 겪는 사람들에게 재활치료 목적으로 음성처리 기술이 널리 활용되고 있는 점에 큰 보람을 느껴요.

사람의 언어 능력에는 말하기, 듣기, 쓰기, 읽기의 네 가지 영역이 있는데, 이것들이 전부 유기적으로 연관되어 있어요. 그래서 글의 요점을 파악하고, 상대방의 말소리에 귀 기울이며, 논리적으로 말하고 쓰는 능력인 문해력이 중요한데요. 음성처리 기술을 활용한 인공지능 분야는 현재 사람의 언어 능력을 키우는 데 도움을 주고 있기 때문에 앞으로도 우리들의 문해력을 성장시키는 일에도 큰 역할을 할 거예요.

인공지능 시대, 사람과 사람이 만나는 일을 찾을 것

음성처리전문가가 되기 위한 준비를 하려면 어떤 노력을 해야 할까요?

조_ 음성처리 기술을 연구하고 개발하기 위해서는 오랜 시간 컴퓨터와 함께 일을 해야 해요. 물론 사람들을 대하며 녹음 데이터를 수집하는 경우도 있지만, 우리가 일하는 대부분의 시간은 손에 잡히지 않는 데이터의 구조를 만들고 분석하는 과정의 연속이죠. 개발자가 하는 일과 비슷해요. 컴퓨터로 음성 데이터를 분석하고, 인공지능 모델을 개발하며 이를 실제 상황에 맞는 프로그램으로 만드는 일이다 보니 아무래도 개발 능력이 가장 중요하죠. 꼭 거창한 것이 아니어도 무언가를 만들 줄 아는 능력을 하나쯤 가지고 있으면 도움이 될 거예요.

그래서 이 분야에서 일을 하려면 음성이라는 물리적 신호에 대해 이해할 수 있는 수학적 기반과 공학적 훈련이 필요합니다. 컴퓨터공학과 수학, 물리학 공부를 통해 데이터를 분석하는 사고를 해보길 바라요. 사실 저는 언어와 사람에 대한 관심으로 이 일을 시작했는데요. 음성처리가 언어와 관련된 분야이다 보니 국어와 영어 등 언어 과목에도 관심을 갖는 게 좋아요.

인공지능 혹은 가상인간이 사람보다 더 사람같이 언어를 구사하고 자유롭게 활동하는 세상이 곧 올까요?

조_ 이미 시작됐다고 생각해요. 인간보다 인공지능이 말을 유려하게 하고, 혹은 사람처럼 멋진 외모를 갖춰 노래하고 춤추는 것이 가능해졌죠. 이제부터 눈여겨볼 점과 해야 할 고민은 ‘사람만이 할 수 있는 건 뭘까?’인 것 같아요. 인공지능의 시대가 왔으니까 우리는 직업을 잃는다고만 생각할 게 아니라 사람이 할 일, 기계가 할 일을 구분할 줄 알아야 해요. 분명히 컴퓨터로 대체할 수 없는 분야가 존재하거든요. 대표적으로 사람과 사람이 직접 만나야만 하는 일이라든지 사람의 손으로 해야 하는 일, 또는 누군가의 돌봄이 필요한 일 등이 있죠. 이런 일들을 기계가 완전히 대신할 수 있으려면 앞으로도 꽤 오랜 시간이 걸릴 거라고 많은 전문가가 예측하고 있어요. 미래에 나만이 할 수 있는 일이 무엇이 있을지 곰곰이 생각해보세요.

두 박사님이 현재 고민하고 있는 것과 앞으로의 꿈은 무엇인지 알고 싶어요.

홍_ 기계가 사람을 대체하지 못하면서도 가장 중요한 일이 무엇일까를 고민해봤을 때 저는 사람을 교육하는 일이라고 생각해요. 우리나라 인구가 감소하면서 지방권에서는 학교에 다니는 아이들이 점차 사라지고, 선생님을 채용하는 일도 줄어들고 있어요. 그래서 지역적인, 사회적인 차별 없이 널리 사용할 수 있는 에듀테크 서비스를 만들어보자는 마음으로 현재 여러 프로젝트를 구상하고 개발 중입니다. 또, 음성처리와 인공지능 기술을 통해 사람들의 ‘디지털 리터러시’ 감각을 깨우는 데도 도움을 주고 싶어요. 인터넷에서 내가 원하는 정보를 빠르게 접하고 이해할 수 있으려면 여전히 언어를 읽고, 말하고, 쓰고, 듣는 능력이 있어야 하거든요.

조_ 인공지능, 그리고 최첨단 IT 기술이 우리의 일상에서 점점 당연한 것이 되어갈 때 ‘사람은 무엇을 해야 하는지’에 대해 더 많이 고민하게 되는데요. 우리를 조금 더 사람답게 만들어주는 것은 역시 교육 분야라고 생각해요. 아무래도 ‘일대일 터치’가 필요한 분야이기 때문이죠. 사람은 직접 만나고 소통할 때 진정한 행복을 느껴요. 그래서 앞으로 제가 개발하는 음성처리 인공지능 관련 기술과 서비스로 사람과 사람이 더 가까이 닿을 수 있게 하는 것이 목표입니다.

사진 바림

이은주 MODU매거진 기자 silver@modu1318.com

글 이은주 ‧ 사진 바림 ‧ 자료 제공 미디어젠

Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지

이 기사에 대해 어떻게 생각하시나요?