"이젠 AI가 카메라로 세상 들여다본다" 오픈 AI, 신형 GPT-4o 공개

처리 속도 2배 빨라져… 목소리 톤 조절 등 자연스런 대화 가능해

GPT-4o가 카메라 렌즈를 통해 시각 장애인에게 상황을 알려주는 장면./ 사진=유튜브 화면 캡처

AI와 음성 대화, 스마트폰 비디오 스트림, 문자 등으로 실시간으로 소통할 수 있게 됐다.

13일(현지시간) 오픈 AI가 신형 모델 ‘GPT-4o(포오)’를 발표했다고 니혼게이자이신문이 전했다. 앞서 오픈 AI는 지난해 11월 ‘GPT-4 터보’를 선보인 바 있다. 신형 모델 이름의 o는 ‘모든’을 의미하는 ‘옴니(omni)’에서 따왔다.

해당 모델은 카메라 렌즈로 상황을 들여다보기도 한다. 오픈 AI는 ‘내 눈이 되어주는 GPT-4o(Be My Eyes Accessibility with GPT-4o)’란 제목의 영상을 13일(현지시간) 공개했다. 영상엔 지피티가 시각 장애인의 택시 탑승을 돕는 장면이 나온다.

카메라 렌즈를 통해 지피티는 택시 한 대가 이용자 방향으로 접근하고 있는 것을 파악한다. 이에 영상 속 지피티는 “지금 택시가 당신의 왼편을 향해 달려오고 있어요, 손을 흔들어 탑승하세요”라며 시각 장애인의 눈이 돼준다.

종전 모델과 비교해 처리 속도는 2배 빨라졌으며, 운용 비용은 절반으로 줄었다. 목소리로 말을 걸면 마치 사람과 같은 속도로 대화할 수 있다. 니혼게이자이신문은 이번 모델이 그간 약점이던 반응 지연을 극복해 AI 활용 범위가 커질 것으로 평가했다.

이 모델의 사람 음성에 대한 반응 속도는 빠를 경우엔 232밀리초(1밀리초는 1000분의 1초), 평균 320밀리초다. 이는 사람이 실제로 대화할 때와 같은 수준이다. 인간의 감정을 읽고 농담도 알아 들을 수 있어 보다 자연스런 대화가 가능하다.

GPT-4o는 총 50개국 언어를 지원하며 문자, 이미지, 음성을 모두 인식한다. 스마트폰 카메라를 통해 사람의 얼굴 표정, 그래프 등을 읽을 수 있다.

이날 열린 웹발표회 데모에선 개발자가 GPT에 아이가 잠들도록 책을 읽어 달라고 음성으로 요청한다. 이에 GPT는 목소리 톤을 조절해 노래하는 듯하며 책을 읽었다. 미라 무라티 최고기술책임자(CTO)는 발표회에서 “지금까지 (AI) 모델의 지능을 높이는 데 주력해 왔지만 사용의 용이성으로 큰 전진을 이루었다”고 강조했다.

신기술의 탑재 후에도 챗GPT의 기본 요금은 변하지 않는다. 텍스트나 이미용의 일부 기능을 무료로 사용할 수 있다. 음성 기능은 월 20달러의 유료 이용자나 법인용으로만 몇 주 이내에 먼저 사용하도록 제공한다. 데이토 운용의 부하를 피하기 위해 이용 횟수엔 계획에 따라 제한이 있다.

윤소희 인턴기자 ysh@hankyung.com

한경비즈니스

경제

"이젠 AI가 카메라로 세상 들여다본다" 오픈 AI, 신형 GPT-4o 공개