국산 인공지능, 24개 언어 구글 수준으로 인식한다

이영완 과학전문기자 2022. 11. 3. 12:08
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

국내 연구진이 24가지 언어로 말한 음성을 문자로 변환할 수 있는 인공지능을 개발했다.

음성인식은 인공지능 통·번역의 기본이라는 점에서 앞으로 전 세계에서 자유롭게 의사소통을 할 수 있는 인공지능을 개발하는 데 핵심 기술이 될 것으로 기대된다.

한국전자통신연구원(ETRI)은 "세계 주요 24개 언어를 음성으로 인식하고, 문자로 변환할 수 있는 '대화형 인공지능' 기술을 개발했다"고 3일 밝혔다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

전자통신연, 음성 문자화 인공지능 개발
희소언어 자료 부족, 독자기술로 극복
“구글과 대등 또는 나은 수준”
연내 30여 언어로 확대할 계획
ETRI연구진이 24개 음성인식 기술을 이용해 세계 각국 정상의 연설을 실시간 통역하는 모습./ETRI

국내 연구진이 24가지 언어로 말한 음성을 문자로 변환할 수 있는 인공지능을 개발했다. 음성인식은 인공지능 통·번역의 기본이라는 점에서 앞으로 전 세계에서 자유롭게 의사소통을 할 수 있는 인공지능을 개발하는 데 핵심 기술이 될 것으로 기대된다.

한국전자통신연구원(ETRI)은 “세계 주요 24개 언어를 음성으로 인식하고, 문자로 변환할 수 있는 ‘대화형 인공지능’ 기술을 개발했다”고 3일 밝혔다.

음성인식 인공지능을 개발하려면 음성과 이를 문자로 바꾼 녹취록 같은 자료를 먼저 학습시켜야 한다. 정답이 있는 자료를 주고 학습을 시키는 것이다. 주요 언어는 이런 학습자료가 많지만, 사용자가 적은 희소언어는 턱없이 부족한 실정이다.

연구진은 학습자료를 늘리는 새로운 방법을 개발해 이 문제를 해결했다. 먼저 자기 지도학습이다. 음성이나 문자만 있는 자료를 인공지능에 학습시키면서 스스로 답을 찾도록 했다. 정답 없는 문제를 풀면서 답에 근접하는 방식이다. 인공지능은 비슷한 음성이나 문자를 비교하면서 인식이 되지 않는 부분에 어떤 단어가 들어갈지 유추할 수 있다.

또 의사(疑似) 레이블 기술로 학습용 가짜 자료도 만들었다. 김상훈 ETRI 복합지능연구실 책임연구원은 “인공지능 학습에는 정답이 있는 만 시간 단위의 자료가 필요한데 지금은 100시간, 200시간 자료만 있는 상황”이라며 “음성만 있는 자료를 낮은 수준이나마 문자로 변환하면 다시 인공지능에 학습시킬 자료가 될 수 있다”고 말했다.

음성인식 인공지능 기술 성능 비교 표(동남아어, 유럽어). ETRI 인공지능은 파란색, 구글은 주황색이다. 음성인식 정확도가 대등한 수준이다./ETRI

또 희소언어 자료들을 한데 모아 학습시키거나, 음성 자료를 다양한 화자의 음성으로 합성해 학습시키는 방법도 적용했다. 남성 목소리의 음성을 여성 음성으로 바꿔 학습량을 늘리는 방식이다.

김상훈 책임연구원은 “실험 결과 이번에 개발한 음성인식 기술은 구글 같은 글로벌 업체와 비교해 한국어는 더 나은 성능이고, 다른 언어는 대등한 수준”이라고 밝혔다.

연구진은 앞으로 음성인식 기술 활용 범위를 확대해 사업화를 추진할 예정이라고 밝혔다. 특히 올해 안으로 지원 언어를 30여 가지로 확대하고, 국내·외 전시 참여와 기업체 설명회를 통해 동남아와 남미, 아랍권에서 사업화를 적극 추진하겠다고 밝혔다.

음성을 문자로 바꾸면 이를 원하는 언어로 번역하거나 합성음으로 통역할 수 있다. 연구진은 2018년 평창 동계 올림픽에 같은 방식으로 공식 자동통역 서비스에 핵심 기술을 제공한 바 있다. 인공지능 움성인식 기술은 휴대폰의 통·번역기는 물론, 키오스크(무인 주문기)나 로봇, 자동차애도 들어갈 수 있다.

김상훈 책임연구원은 “최근 국내에서 다양한 국적의 외국인이 형사 사건에 연루되지만 제대로 된 통·번역 서비스를 받지 못하는 경우가 많다”며 “이번 기술이 우리나라 인공지능 분야의 산업 경쟁력을 높일 뿐 아니라 수사, 재판 과정에서 인권 보호에도 도움이 되길 바란다”고 말했다.

24개 음성인식 기술을 이용해 중국어를 실시간 통역하는 모습./ETRI

- Copyright ⓒ 조선비즈 & Chosun.com -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?