물 흐르듯 대화하는 진짜 사람 같은 AI ‘GPT-4o’

김지현 테크라이터 2024. 5. 18. 09:01
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

오픈AI, ‘넘사벽’ 기술력으로 구글 멀찌감치 따돌려

지난해 11월 오픈AI는 개발자 콘퍼런스 '오픈AI 데브데이(devday)'에서 GPT-4 터보(Turbo), GPT스토어(Store)를 발표하며 후발 주자 구글을 다시금 멀찌감치 따돌렸다. 이를 두고 글로벌 정보기술(IT)업계에선 오픈AI가 다른 경쟁자의 기술 추격을 가로막는 해자(垓字)를 쌓았다는 평가마저 나왔다. 오픈AI는 사업 측면에서도 마이크로소프트(MS)와 각별한 파트너십을 자랑하는 등 탄탄한 협업체제를 구축했다. 지난해 말 이후 오픈AI는 거의 매달 새로운 기능을 선보이며 AI 맹주로서 시장을 주도하고 있다. 2월 인공지능(AI) 동영상 생성 서비스 소라(Sora)와 대화 내용 메모리 기능을 발표했고, 5월에는 애플 아이폰용 챗GPT 애플리케이션(앱)을 내놓았다.

오픈AI는 5월 13일(이하 현지 시간) '업데이트 행사'에서 새로운 AI 모델 'GPT-4o'를 발표해 또다시 '넘사벽' 기술력을 증명해보였다.

오픈AI는 인공지능(AI) 시장 선두 주자로서 위상을 공고히 하고 있다. [GETTYIMAGES]

카메라로 얼굴 보고 인간 감정 파악

신형 AI 모델 이름에서 o는 옴니(omni)의 줄임말로 '모든 것' '어디에나 있다'는 뜻이다. 오픈AI가 GPT-4o를 'AI 종합판'이라고 칭하며 자신감을 드러낸 데는 근거가 있다. GPT-4o에서 사용할 수 있는 차별화된 5가지 옴니 기능 때문이다. △텍스트, 이미지, 오디오 등 다양한 형식의 데이터를 처리할 수 있는 멀티모달(multi modal) 기능 △이미지를 분석하고 설명하며 생성하는 강화된 비전(vision) 기능 △실시간 웹 정보 검색을 통해 얻은 최신 정보를 기반으로 한 깊이 있는 답변 기능 △외부 API(응용프로그램 인터스페이스)를 호출해 새로운 기능을 확장할 수 있는 펑션콜(function call) 기능 △데이터 해석 능력을 바탕으로 한 비즈니스 인사이트 제공 기능 등이다.

GPT-4o를 한마디로 표현하자면 '보고 듣고 말할 수 있는 복합적 AI'라고 할 수 있다. 할리우드 영화 '그녀(Her)'에 등장하는 AI 연인이나 '아이언맨' 속 자비스 같은 AI가 완성되고 있음을 보여준다. 실제로 이번에 오픈AI가 공개한 데모 영상을 보면 GPT-4o는 사람처럼 자연스럽게 대화하는 데다 유머 실력까지 갖췄다. 기존 AI와 대화는 딱딱할 뿐 아니라, 사람이 말한 내용을 AI가 듣고 나서 답하는 형태라 전반적으로 단절된 느낌을 줬다. 이와 달리 GPT-4o와 대화는 그야말로 물 흐르듯 자연스레 이어진다. 챗GPT가 말하는 와중에 사람이 끼어들어 말할 수 있고, 여러 명의 목소리도 동시에 인식한다. GPT-4o가 응답하는 데 걸리는 시간은 평균 0.32초로 사람과 거의 비슷한 수준이라고 한다. GPT-4o의 경제성이 높아진 점도 눈에 띈다. 기존 GPT-4 터보와 비교해 속도는 2배 빠르지만 비용은 2분의 1 수준이다.

GPT-4o에서 무엇보다 주목할 점은 AI가 카메라로 세상을 들여다본다는 것이다. GPT-4o가 사람과 자연스럽게 대화할 수 있는 이유 중 하나도 카메라를 통해 상대방 표정을 읽어내기 때문이다. 카메라와 연동으로 GPT-4o의 실용성도 기존 모델보다 크게 높아졌다. 가령 사람이 수학 문제를 푸는 모습을 비춰주면 풀이 방법을 알려주거나, 컴퓨터 화면 속 코딩에서 잘못된 내용을 지적하는 것도 가능하다. 최근 오픈AI는 애플 데스크톱용 앱을 개발하고 있는데, 이 앱이 완성되면 AI가 컴퓨터 화면 속 내용을 인지하고 사람과 대화하는 것도 가능해질 것이다.

당장 GPT-4o가 IT 시장에 끼칠 영향은 무엇일까. 우선 AI 비서 시장이 화려하게 부활할 가능성이 커졌다. 2014년 아마존이 AI 비서 '알렉사'와 스마트 스피커 '에코'를 발표하자 관련 시장에 대한 관심이 뜨거웠다. 하지만 기대에 못 미치는 AI 비서 성능 탓에 소비자로부터 큰 호응을 얻지 못했다. GPT-4o는 말하면서 듣는 것은 물론, 볼 수도 있다는 점에서 개인용 컴퓨터(PC)나 스마트폰의 사용성도 획기적으로 높일 것이다. 실제로 애플은 오픈AI와의 전략적 제휴에 따라 아이폰에 챗GPT를 탑재할 것으로 예상된다. 애플의 기존 음성 비서 '시리'가 챗GPT 엔진을 기반으로 작동할 경우 성능이 크게 향상된다. 결과적으로 아이폰과 맥(mac)을 사용하기가 더욱 편리해지는 것이다. GPT-4o가 실시간 통역 서비스 시장에 끼칠 파급 효과도 크다. 그간 여러 스타트업이 사용자가 각자 자기 나라말로 하는 대화를 실시간 통역해주는 서비스를 출시했다. 강력한 성능을 앞세운 GPT-4o의 등장으로 시장 지각변동이 불가피하다.

오픈AI가 5월 13일(현지 시간) ‘업데이트 행사’에서 새로운 인공지능(AI) 모델 ‘GPT-4o’를 공개했다. [오픈AI 제공]

MS 언급 없이 애플과 협업 강조

GPT-4o 공개를 계기로 글로벌 빅테크 간 AI 경쟁이 더 치열해질 전망이다. 아직까지 빅테크 '골리앗' 구글은 '다윗' 오픈AI에 한 발 뒤지는 모습이다. 5월 14일 구글은 연례행사인 '구글 I/O 2024'에서 새로운 AI 비서 '프로젝트 아스트라'를 공개하고 검색 기능 등 서비스 전반에 자체 AI 모델 '제미나이'를 적용하겠다고 발표했다. 구글이 공개한 영상에 따르면 스마트폰에서 아스트라를 실행한 채 주변을 비추자 AI가 이를 인식해 사람과 대화한다. 하루 전 오픈AI가 선보인 GPT-4o와 같은 기능이다. 구글은 텍스트로 고품질 영상을 만들어주는 '비오'도 공개했는데, 이 또한 오픈AI가 이미 3개월 전 발표한 소라와 유사하다.

한편 이번에 오픈AI가 GPT-4o를 발표하는 자리에서 MS를 한 번도 언급하지 않고 애플과의 협업만 강조한 점도 향후 빅테크 간 AI 경쟁 구도에서 어떤 변화가 있을지 눈여겨볼 부분이다.

*유튜브와 포털에서 각각 '매거진동아'와 '투벤저스'를 검색해 팔로잉하시면 기사 외에도 동영상 등 다채로운 투자 정보를 만나보실 수 있습니다.

김지현 테크라이터

Copyright © 주간동아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?