바이두 AI 연구소, 음성→문자 변환 프로그램 개발

이은정 기자 2017. 3. 20. 16:34
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

바이두가 인공지능(AI)의 핵심기술 중 하나인 딥러닝 기술로 음성을 문자로 변환시키는 웹 응용 프로그램을 선보였다.

15일 왕이커지는 바이두의 실리콘밸리 AI 연구소(SVAIL)가 음성을 문자로 변환하는 '스위프트스크라이브(SwiftScribe)'를 개발했다고 보도했다.

스위프트스크라이브는 바이두의 AI 기반 음성 인식 시스템 '딥 스피치(Deep Speech)2'를 기반으로 제작됐다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

딥 스피치2 기반 제작..작업 시간 40% 단축

(지디넷코리아=이은정 기자)바이두가 인공지능(AI)의 핵심기술 중 하나인 딥러닝 기술로 음성을 문자로 변환시키는 웹 응용 프로그램을 선보였다.

15일 왕이커지는 바이두의 실리콘밸리 AI 연구소(SVAIL)가 음성을 문자로 변환하는 ‘스위프트스크라이브(SwiftScribe)’를 개발했다고 보도했다.

이 프로그램은 wav 혹은 mp3 형식 음성 파일을 지원한다. 1분 가량의 녹음 파일이 문자로 전환되는 데는 30초, 1시간 길이의 파일은 20분 가량 소요된다. 아직까지 대소문자 구별, 문장 부호 달기, 문단 나누기 등 기능은 지원되지 않는다. 수정이 필요하면 텍스트 상자에서 따로 편집할 수 있다.

이번 프로젝트를 담당한 바이두 매니저 텐우(田武)는 “이 프로그램은 의료기구, 법률, 상업, 매체 등 광범위한 영역에서 생산력을 높이고 지대한 영향을 끼칠 것”이라며 “1시간의 녹음 자료를 (사람이) 작성하기 위해 소요되는 4~6시간의 40%를 단축했다”고 말했다.

스위프트스크라이브는 바이두의 AI 기반 음성 인식 시스템 ‘딥 스피치(Deep Speech)2’를 기반으로 제작됐다. 바이두는 2014년 처음으로 자연어를 인공지능으로 분석해주는 딥 스피치를, 2015년 9월에는 한층 개선된 딥 스피치2를 선보였다.

바이두가 개발한 음성 문자 변환 프로그램 '스위프트스크라이브(SwiftScribe)'.(사진=왕이커지)

딥 스피치2는 소음이 많은 환경에서 영어 음성 인식률의 정확도를 높이는 데 목표를 두고 개발됐으며 다양한 말투, 사투리, 시끄러운 환경에서의 음성 인식 정확도를 97%까지 높였다. 바이두는 이를 위해 9천600여 명의 7천 시간 길이 음성 샘플과 15가지 종류의 소음을 더해 10만 시간 가량의 샘플을 확보한 것으로 전해졌다. 딥 스피치2 알고리즘에는 중국어도 적용되기 시작했다.

바이두 AI관련 수석 과학자 우은다(吳恩達)는 “이 프로그램은 마이크로소프트(MS) 소프트웨어 빙 스피치, 구글 스피치 응용프로그램인터페이스(API) 등 경쟁사의 프로그램보다 오인식률이 10% 낮다”고 설명했다.

이 신문은 “바이두는 앞으로도 더 많은 자금으로 투자를 확대해 인공지능 연구를 지원할 것으로 보인다”며 “이는 리옌훙(李彦宏) 바이두 이사장 겸 CEO가 최근 반복적으로 언급해 온 사항”이라고 보도했다. 리옌홍 이사장은 지난달 재무보고 전화회의에서 “인공지능은 인터넷과 전통 공업을 변화시키는 커다란 기회”라고 언급한 것으로 전해졌다.

스위프트스크라이브는 아직까지 영어만을 지원하며 당분간 무료로 사용 가능할 전망이다.

이은정 기자(lejj@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?