"이젠 AI가 카메라로 세상 들여다본다" 오픈 AI, 신형 GPT-4o 공개

2024. 5. 14. 10:50
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

AI와 음성 대화, 스마트폰 비디오 스트림, 문자 등으로 실시간으로 소통할 수 있게 됐다.

13일(현지시간) 오픈 AI가 신형 모델 'GPT-4o(포오)'를 발표했다고 니혼게이자이신문이 전했다.

앞서 오픈 AI는 지난해 11월 'GPT-4 터보'를 선보인 바 있다.

  오픈 AI는 '내 눈이 되어주는 GPT-4o(Be My Eyes Accessibility with GPT-4o)'란 제목의 영상을 13일(현지시간) 공개했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

처리 속도 2배 빨라져… 목소리 톤 조절 등 자연스런 대화 가능해
GPT-4o가 카메라 렌즈를 통해 시각 장애인에게 상황을 알려주는 장면./ 사진=유튜브 화면 캡처



AI와 음성 대화, 스마트폰 비디오 스트림, 문자 등으로 실시간으로 소통할 수 있게 됐다.

13일(현지시간) 오픈 AI가 신형 모델 ‘GPT-4o(포오)’를 발표했다고 니혼게이자이신문이 전했다. 앞서 오픈 AI는 지난해 11월 ‘GPT-4 터보’를 선보인 바 있다. 신형 모델 이름의 o는 ‘모든’을 의미하는 ‘옴니(omni)’에서 따왔다.

해당 모델은 카메라 렌즈로 상황을 들여다보기도 한다.  오픈 AI는 ‘내 눈이 되어주는 GPT-4o(Be My Eyes Accessibility with GPT-4o)’란 제목의 영상을 13일(현지시간) 공개했다. 영상엔 지피티가 시각 장애인의 택시 탑승을 돕는 장면이 나온다.

카메라 렌즈를 통해 지피티는 택시 한 대가 이용자 방향으로 접근하고 있는 것을 파악한다. 이에 영상 속 지피티는 “지금 택시가 당신의 왼편을 향해 달려오고 있어요, 손을 흔들어 탑승하세요”라며 시각 장애인의 눈이 돼준다. 

종전 모델과 비교해 처리 속도는 2배 빨라졌으며, 운용 비용은 절반으로 줄었다. 목소리로 말을 걸면 마치 사람과 같은 속도로 대화할 수 있다. 니혼게이자이신문은 이번 모델이 그간 약점이던 반응 지연을 극복해 AI 활용 범위가 커질 것으로 평가했다.

이 모델의 사람 음성에 대한 반응 속도는 빠를 경우엔 232밀리초(1밀리초는 1000분의 1초), 평균 320밀리초다. 이는 사람이 실제로 대화할 때와 같은 수준이다. 인간의 감정을 읽고 농담도 알아 들을 수 있어 보다 자연스런 대화가 가능하다.

GPT-4o는 총 50개국 언어를 지원하며 문자, 이미지, 음성을 모두 인식한다. 스마트폰 카메라를 통해 사람의 얼굴 표정, 그래프 등을 읽을 수 있다.

이날 열린 웹발표회 데모에선 개발자가 GPT에 아이가 잠들도록 책을 읽어 달라고 음성으로 요청한다. 이에 GPT는 목소리 톤을 조절해 노래하는 듯하며 책을 읽었다. 미라 무라티 최고기술책임자(CTO)는 발표회에서 “지금까지 (AI) 모델의 지능을 높이는 데 주력해 왔지만 사용의 용이성으로 큰 전진을 이루었다”고 강조했다.

신기술의 탑재 후에도 챗GPT의 기본 요금은 변하지 않는다. 텍스트나 이미용의 일부 기능을 무료로 사용할 수 있다. 음성 기능은 월 20달러의 유료 이용자나 법인용으로만 몇 주 이내에 먼저 사용하도록 제공한다. 데이토 운용의 부하를 피하기 위해 이용 횟수엔 계획에 따라 제한이 있다.

윤소희 인턴기자 ysh@hankyung.com 

Copyright © 한경비즈니스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?