영화 '그녀'처럼, 말속 감정까지 이해하는 AI... 오픈AI, 'GPT-4o' 공개

음성 반응속도 평균 320밀리초로 단축
사람처럼 보는 동시에 말하기 가능해져
"사용 편의성 측면에서 큰 진전은 처음"

미라 무라티 오픈AI 최고기술책임자가 13일 온라인 신제품 공개 행사를 통해 새 인공지능 모델 'GPT-4o'를 소개하고 있다. 오픈AI 영상 캡처

2014년 국내 개봉한 영화 '그녀(her)'에는 여성의 목소리로 말하는 인공지능(AI) 챗봇 '사만다'가 등장한다. 외로운 남성 주인공은 처음엔 사만다를 반신반의하지만, 언제든 부를 수 있고, 자신을 전적으로 이해해 주며, 위로와 즐거움을 주는 그녀를 이내 사랑하게 된다.

이런 영화 같은 일을 현실에서 마주할 날이 성큼 다가왔다. 챗GPT 개발사 오픈AI는 13일(현지시간) 사람과 비슷한 속도로 반응하는 새 AI 모델 'GPT-4o(o는 모든 것을 뜻하는 omni 줄임말)'를 공개했다. GPT-4o는 이용자가 입력하는 글뿐 아니라 음성, 영상까지 인식하는 멀티모달(Multimodal·시각, 청각 등 다양한 정보를 주고받는 것) AI다. 이전까지 가장 최신 모델이었던 GPT-4 터보보다 시청각 이해도가 훨씬 향상됐고, 특히 음성 입력에 대해서는 평균 320밀리초(1밀리초는 1,000분의 1초) 내에 반응한다.

이날 온라인 영상을 통해 GPT-4o를 소개한 미라 무라티 오픈AI 최고기술책임자(CTO)는 "지난 몇 년 동안 우리는 AI 모델의 지능을 향상시키는 데 중점을 둬왔고, 실제로 꽤 좋아졌다"며 "그러나 사용 편의성 측면에서 실제로 큰 진전을 이룬 건 처음"이라고 밝혔다. GPT-4o는 AI의 단순한 능력 향상을 넘어, 인간과 AI 간 진정한 상호작용을 위한 의미 있는 도약이라는 것이다.

13일 오픈AI의 온라인 신제품 공개 행사에서 새 인공지능 모델 GPT-4o가 사람이 문제 푸는 모습을 실시간으로 지켜보며 선생님처럼 풀이 과정을 알려주고 있다. 오픈AI 영상 캡처

사람 숨소리만 듣고 어떤 감정인지 이해

이날 오픈AI가 공개한 영상을 보면 GPT-4o는 훨씬 사람에 가까운 능력을 구현한다. 음성만으로 대화를 주고받을 수 있을 뿐 아니라, AI가 사람의 움직임을 실시간으로 관찰하면서 말할 수도 있다. 사람이 수학 문제를 푸는 모습을 보면서 문제 풀이에 대한 질문에 답하거나, 두 사람이 가위바위보 같은 게임하는 것을 지켜보며 심판 역할을 하기도 한다. 또 이용자와 대화하면서 작곡하고, 아재개그나 풍자도 자유자재로 구사한다. 어떤 면에선 사람보다 나은 모습을 보이기도 한다. 대표적인 게 한국어를 포함한 50개 언어에 대한 실시간 통역이다.

더 놀라운 점은 단순히 '말'만을 인식할 수 있는 게 아니라는 것이다. 이날 시연 무대에 오른 오픈AI 연구원 마크 첸이 '조금 긴장된 상태인데 나를 진정시켜줄 수 있느냐'고 묻자, GPT-4o 기반의 AI 음성 비서는 "심호흡을 해보세요"라고 권한다. 이에 첸이 거칠고 빠르게 숨을 내쉬자, AI는 "오우, 천천히요. 당신은 진공청소기가 아니에요. 당신이 전문가라는 것을 잊지 마세요"라고 농담하며 긴장을 풀어주려 한다. 숨소리를 인지할 뿐 아니라, 어떤 감정 상태인지까지 이해한 것이다. 다시 첸이 숨을 천천히 깊게 들이쉬자, AI는 "바로 그거야"라고 말한다. GPT-4o는 다른 대화에서도 연구원이 자신의 웃는 얼굴을 보여주며 "내가 지금 어때 보이냐"고 묻자, "신난 것 같다"고 답했다.

GPT-4o는 감정을 인식할 뿐 아니라 일정 부분 표현도 한다. "뮤지컬처럼 노래로 얘기해 줘" 같은 이용자의 요구나 대화 맥락에 맞춰 다양한 목소리와 톤을 낼 수 있다.

샘 올트먼 오픈AI 최고경영자가 13일 GPT-4o 공개 후 자신의 엑스에 ' her'(그녀)라고 남겼다. 올트먼 엑스 캡처

마치 사람처럼, 다양한 감각 동시 인식

GPT-4o 이전 모델들은 음성 응답 시 평균 2.8초(GPT-3.5)~5.4초(GPT-4)의 지연이 있었다. 사람이 질문하면 몇 초 이후에야 대답을 내놔 여전히 기계라는 인상을 줬다. 이는 이전 두 모델의 경우 이용자의 음성을 글로 변환하고, 이에 대해 AI가 글로 답변을 생성한 뒤 음성으로 변환해 출력하는 과정을 순서대로 거쳐야 했기 때문이라고 한다. 오픈AI는 "이는 (변환 과정에서) AI가 많은 정보를 잃게 됨을 뜻한다"고 설명했다. 여러 화자가 동시에 말할 때 음성을 구분하거나 배경 소음 등을 관찰하기 어려웠다는 것이다.

그러나 GPT-4o는 글과 이미지, 음성의 입력과 출력이 사람처럼 동시에 이뤄진다고 한다. 이에 따라 반응 속도가 최소 232밀리초까지 줄었다. 반응 속도가 거의 실시간에 가까워지다 보니, AI가 말하는 도중 사람이 끼어들어 다른 말을 해도 바로 알아듣는 모습을 보였다. 오픈AI는 "GPT-4o는 모든 감각을 결합한 첫 번째 모델"이라며 "그렇기 때문에 우리가 오늘 볼 수 있는 건 AI 모델이 할 수 있는 작업의 극히 일부일 뿐"이라고 평했다.

실제로 이날 샘 올트먼 오픈AI 최고경영자(CEO)는 자신의 엑스(X)에 "her"(그녀)라고 남겼다. 영화 그녀처럼 AI와 진짜 소통하는 시대가 시작됐음을 뜻한 것이라는 해석이 나왔다. 올트먼은 자신의 블로그에도 "컴퓨터와 대화하는 것이 나에게는 결코 자연스럽지 않았지만 이제는 그렇지 않다"며 "(AI가) 인간 수준의 응답 시간과 표현력을 갖춘 것은 큰 변화"라고 썼다.

2014년 한국에 개봉한 영화 '그녀(Her)'의 한 장면. 남자 주인공이 인공지능 사만다와 대화하고 있다. 워너브라더스 제공

구글 행사 전날, 새 모델 발표 선수 쳤다

GPT-4o의 글과 이미지 입·출력 기능은 이날 즉시 챗GPT에 적용됐다. 누구나 무료로 이용할 수 있다. 음성 기능의 경우 앞으로 몇 주 안에 챗GPT 유료 버전에 우선 적용될 예정이다.

오픈AI의 이날 GPT-4o 공개는 구글의 연례 개발자 대회(I/O)를 하루 앞두고 기습적으로 이뤄졌다. 구글이 I/O에서 자사 AI 모델 '제미나이'의 진화한 멀티모달 기능을 선보일 것으로 예상되는 가운데 오픈AI가 새 AI 모델 발표를 선수 친 것이라는 평가가 나왔다. 블룸버그통신은 "AI 분야의 초기 선두주자였던 구글은 오픈AI와 보조를 맞추기 위해 이번 I/O에서 더 많은 AI 업데이트를 공개할 것"이라고 예상했다.

실리콘밸리= 이서희 특파원 shlee@hankookilbo.com

한국일보

IT