통무뤈? 돔무롱? 동물원! 65개국 외국인 발음 알아듣는 '한국어 AI' 나온다

김동욱 2022. 1. 8. 04:30
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

4,000시간 분량의 음성 데이터 구축
게티이미지뱅크

2022년에는 외국인의 어눌한 한국어 발음까지 90% 가까이 알아듣는 인공지능(AI) 엔진이 등장할 전망이다. AI는 양질의 데이터 학습 여부가 성능을 좌우하는데, 대학과 AI 전문기업이 손잡고 국내 최초로 65개국 외국인의 한국어 음성 데이터를 구축한 덕분이다.

국내 체류 외국인이 갈수록 늘고 한류 바람 속에 전 세계에 한국어 배우기 열풍도 불고 있어, 이 같은 AI 엔진은 세계인의 한국어 접근장벽을 낮추는데 큰 역할을 할 것으로 기대된다.


'희귀 데이터'로 꼽힌 외국인의 한국어 음성

7일 정부와 학계에 따르면 세종대, 이화여대와 4개 민간기업(cslee·드림비트·디그랩·액션파워)으로 구성된 산학협력단은 최근 정부 지원 아래 '외국인의 한국어 음성 인식 AI'를 개발하는데 근간이 될 4,000시간 분량의 음성 데이터를 구축했다.

산학협력단의 이번 결과물에 업계에선 기대감이 상당하다. 이번 프로젝트를 주도한 김수연 세종대 영어영문학과 교수는 한국일보와의 인터뷰에서 "AI 개발 프로젝트의 핵심은 AI를 학습시킬 양질의 데이터 구축인데, 특히 외국인의 한국어 음성 데이터는 구축 난도가 상당해 그간 업계에서도 희귀 데이터로 꼽혔다"며 의미를 설명했다. 이번 프로젝트는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 'AI 학습용 데이터' 구축사업에 따른 것이다.

김수연(왼쪽 두번째) 세종대 영문학과 교수 연구팀이 1월 4일 본보와의 인터뷰에 앞서 포즈를 취했다. 고영권 기자

현재 한국어 음성인식 AI 엔진은 스마트폰 등 다양한 기기에서 쓰이지만, 영어 음성인식 AI에 견주면 성능이 떨어진다는 게 업계의 냉정한 평가다. AI 엔진이 한국인의 한국어 발음은 곧잘 알아듣지만(음성인식률 90%), 정작 외국인이 하는 한국말은 절반 정도(음성인식률 50%)만 알아듣는 수준이어서다.

이는 AI의 학습재료 차이에서 기인한다. 세계 공용어인 영어는 AI가 학습할 외국인의 음성 데이터가 넘쳐난다. 자연히 영어 음성인식 AI가 한국어 AI보다 성능이 뛰어날 수밖에 없다.


희귀 데이터, 어떻게 모았나

세종대와 이화여대 연구팀은 지난해 5월부터 12월까지 7개월에 걸쳐 4,000시간 분량의 외국인 한국어 음성 데이터를 수집했다. 앞서 다른 공공기관 등에서 구축한 외국인의 한국어 음성 데이터는 수백 시간에 불과했다. 이번 프로젝트로 그간 10권 수준이던 AI 학습용 교재가 단번에 400여 권까지 늘어난 셈이다.

특히 데이터의 질적인 측면에서도 상당한 개선을 이뤄냈다. 외국인은 한국어를 할 땐 자기도 모르게 모국어 습관이 드러나는데, 이를 '모국어 부정전이' 현상이라고 한다. 가령 동물원이란 단어도 '통무뤈'(영어화자), '돔무롱'(일본), '똥문원'(베트남) 등처럼 언어권별로 다르게 발음한다. AI에 언어권별로 한국어를 발음하는 방식이 어떻게 다른지를 알려주는 게 중요하다는 의미다.

김수연 세종대 영문학과 교수는 1월 4일 본보와의 인터뷰에서 "이번에 수집한 4000시간 분량 데이터는 외국인의 한국어 음성 인식을 위한 인공지능(AI) 학습에 있어 큰 의미가 있는 학습량"이라고 말했다. 고영권 기자

김수연 세종대 교수와 최혜원 이화여대(영어영문학) 교수 연구팀은 이를 위해 언어학적 분석에 기반해 정교한 '나라별 오류 패턴'을 만들었다. 가령 일본인은 '붕대'를 '분대'로 발음하는 등 비음 소리를 잘 못내는데, 크게 6개 언어(영어, 일본어, 중국어, 베트남어, 태국어, 기타)별로 한국말을 어떻게 잘못 발음하는지 세세히 정리한 것이다. 김 교수는 "이런 오류 패턴을 익힌 AI는 분대라는 발음을 들어도 붕대로 인식할 수 있게 된다"고 설명했다.

기본 교재를 완성한 연구팀의 다음 과제는 직접 한국말을 해 줄 외국인 섭외였다. 연구팀은 전국의 다문화가정 센터, 외국인 근로자 센터, 각 대학 유학센터 등에 일일이 협조를 구해 지원자를 모집했다. 이런 전방위 홍보 덕분에 4,000명의 외국인이 지원했고, 이 중 자격을 갖춘 2,000명이 실제 프로젝트에 참여했다. 사실상 국내 체류 중인 외국인 중 웬만큼 한국어 실력을 갖춘 외국인은 죄다 모은 수준이었다는 게 김 교수의 설명이다.

2,000명이 구사하는 모국어 수만 65개(참여국가는 80곳)에 달한다. 이들은 1~2시간 동안 연구팀이 만든 스크립트를 읽거나 연구팀의 질문에 자유롭게 답했다. 이렇게 녹음된 한국어 음성 데이터는 다시 가공(라벨링·데이터의 정답을 알려주는 일), 검증 등의 과정을 거쳐 비로소 'AI 학습용 데이터'로 탄생했다.


외국인의 한국말 90% 알아듣는 AI 나온다

사실상 처음으로 외국인의 한국어 음성 데이터가 방대한 규모로 구축된 만큼 이를 활용한 AI 개발도 불붙을 전망이다. 김 교수는 AI가 데이터 학습을 끝내면 외국인의 한국말 인식률이 현재 50%에서 최대 90% 수준까지 개선될 걸로 내다봤다.

특히 이번에 구축된 데이터는 누구나 사용 가능하도록 개방될 예정이다. 정부 지원으로 구축된 AI 학습용 데이터는 'AI 허브'란 포털에 올라가고, 민간기업은 이를 무료로 내려받을 수 있다. 당장 인천국제공항 등 공공장소의 AI 음성인식기부터 적용할 예정이다. 김 교수는 "무엇보다 AI를 활용한 한국어 학습기 시장이 급성장할 것"으로 내다봤다.

듀오링고 보고서 캡처

5억 명의 사용자를 보유한 온라인 외국어 교육 플랫폼 듀오링고의 2021년 보고서에 따르면, 지난해 세계에서 가장 인기 있는 외국어 순위에 한국어가 7위에 올랐다. 한류의 영향으로 몽골에선 영어보다 한국어 학습자가 더 많을 만큼 한국어 인기가 치솟고 있다.

김 교수는 "한국어 온라인 교육업체 등에서 한국어 학습기를 만드는데 이 데이터를 사용해 새로운 앱을 개발할 예정"이라며 "특히 앞으로 음성 데이터가 더 구축되면 각 언어에 특화된 한국어 AI 학습기도 개발할 수 있을 것"이라고 말했다.

김동욱 기자 kdw1280@hankookilbo.com

Copyright © 한국일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?