AI 음성합성 속도 10배 빨라진다

KT 'AI 원팀' AI 공동 R&D 첫 성과
음성인식·무빙픽처·로봇 고장진단 기술 등 4종

서울 서초구 KT융합기술원에서 연구원들이 사진을 동영상으로 가공하는 `AI 무빙 픽처` 기술을 시연해 보고 있다. [사진 제공 = KT]

KT를 주축으로 결성된 인공지능(AI) 산학연 협의체인 'AI 원팀'이 출범 10개월 만에 첫 공동 연구개발(R&D)성과를 내놨다.

KT는 AI 원팀 공동 R&D를 통한 첫 성과로 딥러닝 음성합성, E2E(End-to-End) 음성인식, 무빙 픽처, AI 기반 로봇 고장 진단 기술 등 4종의 AI 기술 개발에 성공했다고 7일 밝혔다.

AI원팀에는 KT와 현대중공업그룹, LG전자, LG유플러스, 한국투자증권, 동원그룹, KAIST, 한양대, ETRI 등 9개사가 참여하고 있다.

우선 딥러닝 음성합성 기술은 KT와 김회린 KAIST 교수가 협력해 개발했다. 보이스봇 등 사람처럼 말하는 AI를 개발하는데 필요한 기술이다. 이번 기술 개발로 AI가 음성을 합성하는 속도가 기존보다 10배 빨라지고, 비용도 4분의 1수준으로 줄어든다. KT는 올해 1분기 중으로 이 기술을 상용화해 KT 고객센터와 차세대 기가지니 등에 활용할 계획이다.

E2E 음성인식 기술은 KT가 장준혁 한양대 교수와 개발했다. AI가 애매한 발음까지도 대화 맥락 속에서 정확히 인식하고 적은 양의 데이터로도 학습할 수 있도록 도와준다. 덕분에 기존 방식보다 AI의 단어 인식 정확도를 7% 이상 향상했다. KT는 이 기술을 토대로 자유 발화 음성 인식률을 끌어올릴 계획이다.

KT가 한양대 김태현 교수와 연구한 무빙 픽처 솔루션은 이미지에 모션 효과를 적용해 영상으로 바꿔준다. AI가 사진 속 객체를 분석해 전후의 움직임을 추정해 동영상으로 만들어주는 기술이다. 사진 한장 만으로 몰입감 있는 영상을 제작할 수 있다. KT는 이 무빙 픽처 솔루션을 IPTV를 비롯해 포스터, 웹툰, 광고 등 다양한 분야에서 활용할 계획이다.

현대중공업그룹이 장준혁 한양대 교수와 개발한 AI 기반 로봇 고장 진단 기술은 AI가 산업용 로봇의 고장을 진단할 수 있는 기술로, 진동 신호에 음성처리 기술과 딥러닝 기술을 적용해 핵심 구동 부품인 감속기의 이상을 탐지할 수 있다. 현대중공업그룹은 이 기술을 다양한 로봇 제품에 적용해 자동화 라인의 유지보수 효율을 극대화할 수 있을 것으로 기대하고 있다.

AI 원팀은 이번에 공개한 4개 프로젝트 외에도 올해 AI 로봇 등 다양한 분야에서 7개 프로젝트를 추가로 추진하며, AI 혁신을 위해 노력한다는 방침이다.

[임영신 기자]

매일경제

IT/과학

AI 음성합성 속도 10배 빨라진다