“가자, 키트”에서 ‘시리’까지…‘말하는 비서’의 역사

[[한겨레S] 이관수의 인공지능 열전][한겨레S] 이관수의 인공지능 열전 음성인식 AI의 역사

크레이그 페더리기 애플 소프트웨어 담당 수석부사장이 2018년 6월 미국 캘리포니아 새너제이에서 열린 ‘애플 세계 개발자 회의’에서 시리의 기능을 설명하고 있다. AP 연합뉴스

1980년대 초 제작된 미국 드라마 ‘전격 제트(Z)작전’에는 주인공과 대화하는 인공지능 자동차 ‘키트’(KITT)가 등장한다. ‘2001 스페이스 오디세이’(1968)에서 우주선에 탑재된 ‘HAL-9000’이 먼 미래의 공포였다면, 악당들이 개떡같이 말해도 찰떡같이 알아듣고 대처하는 키트는 곧 현실에 나타날 친구 같았다.

전장에서 손대지 않고 무기를

사람의 음성을 실제로 분석해서 알아듣는 기계는 1952년 미국의 벨연구소에서 제작한 ‘오드리’(Audrey)가 처음이다. 그 이전의 사례들은 정해놓은 소리의 강약 패턴에 따라 녹음된 소리를 재생하는 것에 불과했다. 오드리는 영어 숫자를 한자리씩 끊어 말하면 숫자를 인식할 수 있었다. 벨연구소의 궁극적인 목적은 목소리로 전화를 거는 장치였다. 오드리의 인식 성공률은 60~70%대였지만, 개발자들의 목소리로는 90% 후반까지 올릴 수 있었다. 실패는 아니지만 성공이라기에는 애매한 상황. 그리고 다이얼 버튼을 누르는 것이 훨씬 간편하고, 빨랐다. 벨연구소는 프로젝트를 중단했다.

음성인식 성과가 나도 성에 차지 않아 프로젝트를 중단하는 일이 반복됐다. 1962년 시애틀 국제박람회에서 아이비엠(IBM)이 음성을 인식해서 산수를 하는 ‘슈박스’를 전시만 했다. 일본·유럽·소련에서도 연구자들이 음성 신호를 처리하는 기초 기술들을 발표하고는 후속 연구를 이어가지 못하는 일이 벌어졌다.

1971년 미국 방위고등연구계획국(DARPA·다르파)은 야심 찬 음성이해연구(Speech Understanding Research) 프로젝트를 시작했다. 5년간 1500만달러의 예산이 배정된 이 프로젝트는 카네기멜런대학 주관 아래 여러 대학의 연구자들과 연구용역 회사들이 갖가지 명목으로 다수 참여했다. 프로젝트를 승인한 국방부의 목적은 전투 상황에서 각종 장비에 손대지 않고 음성으로 명령을 내릴 수 있게 하는 것이었다.

1974년 중간 점검 때 인공지능학계는 성과를 뿌듯하게 여겼다. 카네기멜런대학 연구팀의 히어세이-2(HEARSAY-2) 등 제출된 성과물들은 1천개 남짓의 단어들을 끊어서 말하지 않아도, 복수의 화자가 이어서 말해도 인식할 수 있었다. 컴퓨터가 음성인식에 걸리는 시간 또한 말하는 시간의 13배 정도로 단축됐다. 당시로서는 ‘거의 실시간 인식’으로 여겨지는 속도였다. 인공지능학계는 성과를 이어갈 후속 프로젝트를 기대했다. 하지만 다르파는 프로젝트를 조기 중단했다.

다르파가 단어를 말하는 순서를 바꾸면 음성 인식률이 격감한다는 점을 프로젝트 중단의 명분으로 내세웠다. 카네기멜런대학 연구자들은 프로젝트 목표에 그런 조건이 명시되지 않았다고 항의했지만, 다르파는 단어 순서를 엄격하게 지켜야 한다면 사용자들이 이를 신경 쓰느라 음성인식 기능을 제대로 사용하지 못한다는 반론을 폈다.

다르파의 태도가 돌변한 원인은 여전히 불분명하다. 1960년대 초부터 인공지능학계가 연구 자금을 마음대로 사용했던 상황에 환멸을 느끼고 기회를 잡았다는 해석부터, 1970년대 초부터 미국 정부의 연구개발 방향이 실용성을 강조하는 쪽으로 바뀌었는데도 인공지능학계가 과장된 성과를 약속하는 버릇을 못 버렸기 때문이라는 풀이까지 다양하다.음성인식 기술 문제가 혹독한 ‘인공지능의 겨울’(AI Winter)을 불러왔다.

☞한겨레S 뉴스레터를 구독해주세요. 클릭하시면 에스레터 신청 페이지로 연결됩니다.

☞한겨레신문을 정기구독해주세요. 클릭하시면 정기구독 신청 페이지로 연결됩니다.

‘변방의 용’ 이젠 내 손안에

첫 ‘인공지능의 겨울’은 제임스·재닛 베이커 부부에게도 시련이었다. 그들은 1970년 록펠러대학의 전자공학 대학원생 시절, 오실로스코프로 음성의 파형을 보다가 음성인식에 관심을 갖고 카네기멜런대학으로 옮겨서, 당시로서는 독특한 음성인식 방식을 개발했다. 정보의 ‘뜻’을 중시하는 당시의 주류 인공지능 연구자들은 문법과 문맥을 비롯한 내용정보를 활용해서 음성에 담긴 단어를 인식하는 방식을 추구했다. 반면 베이커 부부는 소리로 음성 사전을 만든 다음, 소리의 일치 여부와 누군가가 그 순서대로 단어를 말할 확률을 통계적으로 추정하는 알고리즘을 개발했다. 베이커 부부가 만든 ‘드래건’(DRAGON)은 카네기멜런대학의 중간보고서에 “거의 혼자서 개발”했지만 괜찮은 성능을 지닌 시스템으로 언급됐다.

1975년 대학원 졸업 후 음성인식 연구를 살려 간신히 취업할 수 있는 곳은 아이비엠 왓슨연구소뿐이었다. 그곳에서 1천개 단어 음성을 인식해서, 아이비엠 신형 컴퓨터인 ‘시스템 370’에서 약 1시간에 음성 문장 하나를 인식하는 프로그램을 개발했다. 그러나 연구소는 후속 개발에 소극적이었다. 그래서 음성인식을 이용해보려는 엑손사로 이직했는데 얼마 안 가 사업부가 폐쇄됐다. 베이커 부부는 할 수 없이 개인용 컴퓨터 시장을 노리고 음성인식 인공지능과 동명의 회사(드래건)를 세웠지만 첫 납품처가 파산하며 위기에 몰렸다. 위기에 몰린 음성인식 기술을 살린 건 다르파였다.

다르파는 ‘초고도집적회로 기술로 인간의 두뇌를 초월하는 컴퓨터를 만들겠다’는 일본의 제5세대 컴퓨터 개발계획에 놀라, 1983년부터 전략컴퓨팅구상 10개년 계획을 진행했다. 컴퓨터와 관련된 오만 분야를 지원했기 때문에, 음성인식 분야도 낙수효과를 보았다. 다르파는 대학의 연구보다 기업의 개발을 중시한 덕분에 기업 쪽에서 뜻과 구문 중심, 통계적 추정 중심 방식의 혼합이 일어났다.드래건과 연구기업 에스알아이(SRI)의 음성인식 부문은 다르파가 발주한 프로젝트 덕분에 확장할 수 있었다.

하드웨어의 급격한 발달도 큰 도움이 됐다. 1992년 에스알아이는 고성능 개인 컴퓨터인 워크스테이션급으로도 음성인식을 구현하는 ‘뉘앙스’를 분사했고, 1997년 드래건은 끊어 말하지 않아도 문장을 인식하는 2만3천단어급 피시(PC) 소프트웨어를 발표했다.

오늘날 도처에서 볼 수 있는 음성인식 비서들도 다르파의 투자에서 시작됐다. 정보당국의 무선 감청-음성인식-정보 분석이 느려서 9·11 테러를 막을 기회를 놓쳤다는 폭로도 음성인식 기술 발달을 추동했다. 드래건을 인수한 뉘앙스와 에스알아이에 몰린 투자 덕분에 클라우드 서버에 기반한 음성인식 기술이 발달했다. 뉘앙스의 기술로 ‘구글 보이스 서치’가 시작됐고, 에스알아이 개발팀이 애플로 옮겨 시리를 만들었다. 시리 개발팀이 독립한 비브랩스는 삼성 빅스비 2.0의 토대가 됐다.

이제는 음성인식 기능에 놀라고 감탄하기보다, 휴대폰이나 자동차의 말귀가 어둡다고 불평하는 경우가 많아졌다. 한때 인공지능 분야의 명운을 좌우했던 음성인식이 더 이상 감동을 주지 않게 된 것이다.

과학저술가

서울대학교 물리학과를 졸업하고 과학사 및 과학철학협동과정에서 박사 학위를 취득했다. 가톨릭대학교 교양교육원 초빙교수를 거쳐 현재 동국대학교 다르마칼리지에 재직 중이다.

이 기사에 대해 어떻게 생각하시나요?

한겨레에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

“가자, 키트”에서 ‘시리’까지…‘말하는 비서’의 역사