AI 음성합성 속도 10배 빨라진다

임영신 2021. 1. 7. 18:15
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

KT 'AI 원팀' AI 공동 R&D 첫 성과
음성인식·무빙픽처·로봇 고장진단 기술 등 4종
서울 서초구 KT융합기술원에서 연구원들이 사진을 동영상으로 가공하는 `AI 무빙 픽처` 기술을 시연해 보고 있다. [사진 제공 = KT]
KT를 주축으로 결성된 인공지능(AI) 산학연 협의체인 'AI 원팀'이 출범 10개월 만에 첫 공동 연구개발(R&D)성과를 내놨다.

KT는 AI 원팀 공동 R&D를 통한 첫 성과로 딥러닝 음성합성, E2E(End-to-End) 음성인식, 무빙 픽처, AI 기반 로봇 고장 진단 기술 등 4종의 AI 기술 개발에 성공했다고 7일 밝혔다.

AI원팀에는 KT와 현대중공업그룹, LG전자, LG유플러스, 한국투자증권, 동원그룹, KAIST, 한양대, ETRI 등 9개사가 참여하고 있다.

우선 딥러닝 음성합성 기술은 KT와 김회린 KAIST 교수가 협력해 개발했다. 보이스봇 등 사람처럼 말하는 AI를 개발하는데 필요한 기술이다. 이번 기술 개발로 AI가 음성을 합성하는 속도가 기존보다 10배 빨라지고, 비용도 4분의 1수준으로 줄어든다. KT는 올해 1분기 중으로 이 기술을 상용화해 KT 고객센터와 차세대 기가지니 등에 활용할 계획이다.

E2E 음성인식 기술은 KT가 장준혁 한양대 교수와 개발했다. AI가 애매한 발음까지도 대화 맥락 속에서 정확히 인식하고 적은 양의 데이터로도 학습할 수 있도록 도와준다. 덕분에 기존 방식보다 AI의 단어 인식 정확도를 7% 이상 향상했다. KT는 이 기술을 토대로 자유 발화 음성 인식률을 끌어올릴 계획이다.

KT가 한양대 김태현 교수와 연구한 무빙 픽처 솔루션은 이미지에 모션 효과를 적용해 영상으로 바꿔준다. AI가 사진 속 객체를 분석해 전후의 움직임을 추정해 동영상으로 만들어주는 기술이다. 사진 한장 만으로 몰입감 있는 영상을 제작할 수 있다. KT는 이 무빙 픽처 솔루션을 IPTV를 비롯해 포스터, 웹툰, 광고 등 다양한 분야에서 활용할 계획이다.

현대중공업그룹이 장준혁 한양대 교수와 개발한 AI 기반 로봇 고장 진단 기술은 AI가 산업용 로봇의 고장을 진단할 수 있는 기술로, 진동 신호에 음성처리 기술과 딥러닝 기술을 적용해 핵심 구동 부품인 감속기의 이상을 탐지할 수 있다. 현대중공업그룹은 이 기술을 다양한 로봇 제품에 적용해 자동화 라인의 유지보수 효율을 극대화할 수 있을 것으로 기대하고 있다.

AI 원팀은 이번에 공개한 4개 프로젝트 외에도 올해 AI 로봇 등 다양한 분야에서 7개 프로젝트를 추가로 추진하며, AI 혁신을 위해 노력한다는 방침이다.

[임영신 기자]

[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?