24개 언어 음성 인식해 문자로 변환...ETRI, AI 기술 개발
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
한국전자통신연구원(ETRI) 연구진이 세계 주요 24개 언어를 인식할 수 있는 음성인식 기술을 개발했다.
ETRI는 한국어와 영어, 중국어, 일본어, 독일어, 프랑스어, 스페인어, 러시아어 등 24개 언어를 음성으로 인식, 문자로 변환할 수 있는 '대화형 인공지능(AI) 기술'을 개발했다고 3일 밝혔다.
김상훈 ETRI 복합지능연구실 책임연구원은 "글로벌 기업과 대등한 수준의 음성인식 기술을 개발한 것"이라며 "AI 경쟁력을 높일 것"이라고 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
한국전자통신연구원(ETRI) 연구진이 세계 주요 24개 언어를 인식할 수 있는 음성인식 기술을 개발했다. 음성인식 기반의 인공지능(AI) 서비스 확산에 기여할 것으로 기대된다.
ETRI는 한국어와 영어, 중국어, 일본어, 독일어, 프랑스어, 스페인어, 러시아어 등 24개 언어를 음성으로 인식, 문자로 변환할 수 있는 ‘대화형 인공지능(AI) 기술’을 개발했다고 3일 밝혔다.
연구진은 자기지도 학습, 의사 레이블 적용, 대용량 다국어 사전 학습 모델, 음성 데이터의 오디오 데이터 생성 증강 기술 등을 통해 음성인식 AI의 다국어 확장과 성능을 확보했다. 자기지도 학습은 레이블이 없는 데이터를 AI 모델이 학습하는 것을, 의사 레이블은 AI가 가상 레이블을 자동으로 생성해 지도 학습하는 기술을 말한다.
ETRI 연구진은 또 기존에 활용되던 종단형 음성인식 기술의 단점을 개선해 활용성을 높였다. 종단형(End-To End) 음성인식 기술이란 음향 모델과 언어 모델, 발음 사전 등을 별도로 학습하지 않고 통합 학습하도록 성능을 향상시키는 기술이다. 응답속도가 느리고 의료나 법률 등 특정 영역에 특화하기 어려운 게 단점이다.
연구진은 스트리밍 추론 기술을 개발해 응답속도를 높이고 실시간 처리가 가능하도록 개선했다. 또 의료나 법률 등 특정 영역에 대한 음성인식 특화가 쉽게 이뤄지도록 하는 기술도 개발해 적용했다.
ETRI는 지난 2020년 종단형 음성인식 기술을 개발한 뒤 국내외 기업 30여개에 음성인식 기술을 이전했다. 이번 다국어 확대와 응답속도 지연 해결 등 신기술 적용을 통해 기술 활용 범위를 넓히고 사업화를 추진할 예정이다. 올해 내에 지원 언어를 30여개로 늘려 동남아와 남미, 아랍권을 대상으로 사업화를 추진한다.
김상훈 ETRI 복합지능연구실 책임연구원은 “글로벌 기업과 대등한 수준의 음성인식 기술을 개발한 것”이라며 “AI 경쟁력을 높일 것”이라고 밝혔다.
[김민수 기자 reborn@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.