영화 ‘Her’ 현실로… 사람처럼 보고 듣고 말하는 AI 나왔다

오픈AI, 음성비서 ‘GPT-4o’ 공개… ‘사랑한다’ 글에 “넌 참 다정하구나”
응답속도 사람과 비슷한 0.32초
여러 사람 목소리 구별해 답변 가능… 웃음-노래-감정표출-번역까지 척척
구글, 음성-영상인식 AI 공개 맞불

오픈AI의 최고기술책임자(CTO)인 미라 무라티가 13일(현지 시간) 실시간 생방송을 통해 새로운 음성비서 ‘GPT-4o’의 주요 기능을 소개하고 있다. 사진 출처 오픈AI 유튜브

13일(현지 시간) 미국 캘리포니아주 샌프란시스코 오픈AI의 신제품 공개 행사 현장. 시연자가 ‘사랑한다’는 글귀를 종이에 써 카메라에 비추자 스마트폰 속 목소리가 부끄럽다는 듯이 “너는 참 다정하구나”라고 말했다.

2014년 인간과 인공지능(AI)의 사랑을 그린 영화 ‘그녀(Her)’를 연상케 하는 이 모습은 오픈AI의 새로운 챗봇 ‘GPT-4o’와 인간의 대화 장면이다. 10년 전 공상과학(SF) 영화가 현실이 된 셈이다. 행사가 끝난 뒤 샘 올트먼 오픈AI 대표는 ‘Her’라는 단어를 자신의 X(옛 트위터) 계정에 올렸다.

오픈AI가 사람처럼 보고 듣고 말하는 음성비서 GPT-4o를 13일 공개했다. 새 모델의 ‘o’는 모든 것이라는 ‘옴니(omni)’를 뜻한다. 이에 맞서 구글은 오픈AI 발표 40여 분 전에 ‘제미나이’의 고도화된 음성 및 영상인식 기능을 공개했다. 맞불을 놓은 셈이다.

AI 개발 경쟁이 인간처럼 말을 알아듣고 영상을 인식하고 대답하는 ‘음성비서’ 대전으로 돌입했다. 지난해부터 이미지와 오디오를 동시에 처리하는 ‘멀티모달’ AI를 내놓은 주요 개발사들이 올해에는 이를 활용한 본격적인 서비스 경쟁에 나선 것으로 풀이된다.

● 사람처럼 공감하고, 때로는 ‘짜증’ 내기도

사람의 목소리를 인식하고 여기에 대답을 내놓는 음성비서는 최근에 나온 기술이 아니다. 2011년 출시된 애플의 ‘시리(Siri)’가 대표적이다. 하지만 기존의 음성비서는 사람의 물음에 인터넷에서 검색한 결과만을 답으로 제시하거나 제대로 된 대답을 하지 못하는 등 한계를 보였다. 글, 이미지, 음성을 동시에 처리할 수 있는 멀티모달 AI가 탑재된 음성비서의 차별점은 사람처럼 반응하고, 행동하고, 감정까지 공유한다는 점이다.

이날 GPT-4o를 공개한 오픈AI의 온라인 행사에서도 사람 같은 모습이 부각됐다. 가장 두드러진 점은 응답 속도다. 오픈AI는 GPT-4o의 응답 속도가 인간과 비슷한 수준인 평균 0.32초라고 밝혔다. 전작인 GPT-4의 반응속도는 평균 5.4초였다. 또 여러 화자의 목소리를 구별해 답변하거나 웃음, 노래, 감정 표출이 가능한 것도 차별점이다.

기존 모델이 주로 글을 통해 소통했다면 GPT-4o는 이용자와 음성 대화가 가능하다. 카메라를 통해서 사물을 볼 수 있고 스피커를 통해 소리를 들을 수 있다.

이날 행사에서 시연자가 “잠을 잘 자지 못하는 친구를 위해 이야기를 들려 달라”고 요청하자 “옛날 옛적에…”로 시작하는 이야기를 들려줬다. “더 감정적으로, 드라마를 넣어 달라”는 추가 요청에 마치 연극의 변사(辯士)와 같이 극적이고 감정적인 목소리로 대화를 꾸몄다. 실시간으로 이탈리아어를 영어로 통역하거나, 영어를 이탈리아로 통역하는 기능도 선보였다.

● 구글도 음성인식 고도화된 AI 기능 공개

국내외 다른 빅테크 기업들도 음성비서 경쟁에 합류할 것으로 전망된다. 당장 구글은 오픈AI의 발표 40여 분 전 AI ‘제미나이’의 고도화된 음성 및 영상 인식 기능을 선보였다. 구글이 X에 올린 50초 분량의 영상에는 행사 준비에 한창인 구글 I/O 무대와 객석 모습이 비쳤다. 사람이 카메라로 무대를 보여 주며 “여기서 뭐가 벌어질 것 같니”라고 묻자 “프레젠테이션, 콘퍼런스가 열릴 것 같다”고 답했다.

뉴욕타임스 등 외신에 따르면 AI 경쟁에 뒤처져 있다는 평가를 받는 애플도 다음 달 진행되는 세계개발자회의(WWDC)에서 음성비서 ‘시리’에 챗GPT와 같은 생성형 AI를 도입할 것으로 전망된다.

국내 기업들도 AI 음성비서 경쟁에 합류를 예고하고 있다. 한종희 삼성전자 디바이스경험(DX) 부문장(부회장)은 거대언어모델(LLM) 기반의 생성형 AI를 7월부터 음성비서 ‘빅스비’에 도입하겠다고 밝혔다. 지난해 자체 언어모델 ‘하이퍼클로바X’를 공개한 네이버도 음성 및 영상인식 기능을 탑재한 서비스를 준비 중이다.

전남혁 기자 forward@donga.com

동아일보

경제

영화 ‘Her’ 현실로… 사람처럼 보고 듣고 말하는 AI 나왔다