[Global]日 통신사 '음성인식' 시장을 잡아라..고령화시대 노인들 비서로 '딱'

2013. 2. 4. 09:27

번역beta Translated by kaka i

닫기

글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

매우 작은 폰트
작은 폰트
보통 폰트
큰 폰트
매우 큰 폰트

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

닫기

스마트폰에 탑재되는 음성인식 기능이 진화하고 있다.

미국 애플사가 아이폰에 음성인식 어시스턴트 기능 '시리(siri)'를 탑재한 이후 각광받기 시작한 음성인식 기능. 이제는 전화를 걸거나 애플리케이션을 가동하는 등 단순한 작업뿐 아니라 사람과의 자연스러운 대화까지도 가능한 인공지능형 기능이 강화되고 있다고 일본 경제주간지 닛케이비즈니스가 최신호(1월 21일자)에서 보도했다.

일본 통신사들은 차세대 음성인식 분야에서 주도권을 잡기 위해 다양한 노력을 기울이고 있다. 예를 들면 음성으로 "내일 도쿄 날씨는?"이라고 물으면 휴대전화가 "일기예보를 알아보겠습니다"라는 식으로 구체적인 답변을 준다. 또 사용자가 "오늘 기분은 어때?"라고 물으면 휴대전화가 "좋아요"라든가 "졸려서 힘드네요"와 같은 때와 장소에 맞는 대답을 건넨다.

이 같은 기능이 주목받는 이유는 고령자처럼 디지털기기 사용에 익숙지 않은 계층을 소비자로 확보하면서 단말기 자체의 기능성을 끌어올려 저변을 확대할 수 있기 때문이다. 호텔 컨시어지나 기업의 비서처럼 이용자의 다양한 니즈에 맞춰 대응하는 기능이 요구되는 시대가 도래한 것이다.

다만 장벽은 기술이다. 사람과 대화하듯 자연스러운 대화를 실현하려면 고도의 기술이 필요하다. 구어체로 말을 건네도 의미를 정확하게 파악해 자연스러운 억양으로 대답하도록 설계하는 기술이 핵심이다.

일본 통신사 NTT도코모는 이 분야에서 타사보다 앞서 있다. NTT도코모 선진기술연구소의 이즈카 신야 씨는 "일본어 대화의 경우 약 80%까지 의미를 정확하게 해석할 수 있다"며 "방대한 어휘력이 타사보다 강점"이라고 설명했다.

"내일 도쿄 날씨는?" 하고 물으면 "네, 화창합니다"라고 즉시 응답

이 회사가 내놓은 '말하는 컨시어지' 이용 건수는 이미 600만건을 넘었다. 애플의 시리는 대응 가능한 언어가 폭넓은 것이 장점이지만 그만큼 개별 언어의 인식도가 높지 않은 것이 단점이다. 말하는 컨시어지는 단점을 개선해 일본어 구어체로 돌려서 표현해도 말 안에 포함된 의미를 정확하게 잡아내도록 했다.

작동 구조도 복잡하다. 말하는 컨시어지는 클라우드상에 있는 '음성인식 엔진' '의미해석 엔진' '음성합성 엔진' 등 3종류의 서버와 스마트폰이 서로 데이터를 주고받으면서 움직이도록 설계됐다.

우선 음성인식 엔진이 사용자가 하는 말을 분석해 텍스트(문자) 정보로 전환한다. 그러면 의미해석 엔진이 텍스트 정보에서 내용과 의미를 추출해 '일기예보를 표시한다' '잡담을 한다' 등 필요한 처리를 판단해준다. 마지막으로 음성합성 엔진이 처리 내용을 텍스트에서 음성으로 변환해 사용자에게 전달한다.

NTT도코모 스마트커뮤니케이션서비스부의 하시다 나오키 씨는 "향후에는 사용자들의 생활 전반을 지원하는 '퍼스널 라이프 에이전트'로 발전시킬 계획"이라고 말했다. 최근에는 "A상품을 사고 싶다"고 말하면 쇼핑사이트에서 그 상품을 주문하는 기능까지도 추가됐다.

또 다른 통신사 KDDI는 '대화 어시스턴트'라는 음성인식 기능으로 시장 공략에 나섰다. KDDI연구소가 독자적으로 개발한 음성합성 소프트웨어 'N2'가 핵심 기술이다. 이 연구소의 니시자와 노부유키 씨는 "합성한 티가 나는 음성이 아닌 매끄러운 음질을 구현한 것이 특징"이라고 설명했다.

현재 사용되는 음성합성 소프트웨어 대부분은 '파형접속합성'이라는 방식의 기술을 쓴다. 내레이터가 대량의 문장을 읽을 때 음성을 기록해 세분화한 뒤 다시 합성하는 방식이다. 사람 육성을 그대로 쓰기 때문에 친근감은 있지만 전후의 음 배열에 따라 부자연스러운 말투로 들리거나 억양이 이상하게 느껴지는 것이 단점이다.

그러나 KDDI가 채택한 이 방식은 수집한 음성을 통계적으로 분석한 뒤 '아'나 '이' 등 음의 울림이나 음정 등을 수백 개의 수치를 사용해 모델화한 것이 특징이다. 전후에 위치한 음 배열에 따라 자연스러운 울림이나 음정이 다르다는 점에 착안해 최적의 수치를 찾아내 예측한다. 이 같은 장점 때문에 애플 시리도 이 방식을 차용했다.

이 기사에 대해 어떻게 생각하시나요?

매경이코노미에서 직접 확인하세요. 해당 언론사로 이동합니다.