영화 ‘HER’가 현실됐다…오픈AI, 사람처럼 보고 듣고 말하는 AI 기습 공개

실리콘밸리/오로라 특파원 2024. 5. 14. 03:57
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

오픈AI, ‘속도’에 초점 맞춘 플래그십 모델 ‘GPT-4o’ 공개
답답했던 챗봇 응답 속도, 사람과 대화하듯 개선
구글 행사 하루 전 기습 발표...경쟁 불붙나
13일 오픈AI가 진행한 온라인 신제품 공개 행사에서 미라 무라티 최고기술책임자(CTO)가 GPT-4o를 소개하고 있다./오픈AI

오픈AI가 13일 최신 거대언어모델(LLM)인 ‘GPT-4o(포오)’를 공개했다. 지난해 3월 ‘GPT-4′, 11월 ‘GPT-4터보’를 내놓은 후 7개월만에 진행된 대형 업데이트다. 이날 오픈AI의 발표는 중요한 AI 업데이트를 공개할 예정인 구글의 연례 개발자 콘퍼런스 ‘I/O’가 개최되기 하루 전에 기습 진행됐다. 테크 업계에선 “생성형 AI의 기술 주도권을 쥐기 위한 빅테크의 싸움이 치열해진 것이 피부로 느껴지는 대목”이라는 평가가 나온다.

이날 온라인 신제품 발표 행사에 나타난 미라 무라티 오픈AI 최고기술책임자(CTO)는 “더 빠르고 똑똑한 새로운 플래그십 AI모델 ‘GPT-4o’를 공개한다”며 “전세계 모든 이용자에게 무료로 제공할 것”이라고 말했다. 그러면서 무라티는 “GPT-4o는 GPT-4 레벨의 지능을 더 빨리 제공하는데 초점을 맞췄다”고 말했다. GPT-4o의 평균 응답 시간은 0.32초로, 0.25초가 소요되는 인간의 응답시간과 비슷하다. GPT-4o의 출현과 함께 AI와 진정한 의미의 ‘실시간 대화’를 물흐르듯 이어가는 시대가 열리게 됐다는 것이다.

놀라운 것은 이 같은 응답 시간이 단순 텍스트 문답이나 음성 대화뿐이 아닌, 시청각 정보를 모두 실시간으로 처리하는 상황에서 이뤄졌다는 것이다. 무라티 CTO는 “GPT-4o는 텍스트·시각·청각 데이터를 넘나드는 능력을 더욱 강화했다”고 설명했다. 한 마디로 사람와 견줄만한 속도로 세상을 보고, 듣고, 생각할 수 있는 AI라는 뜻이다. 그런 의미에서 오픈AI는 새로운 모델명의 ‘o’는 ‘옴니(Omni-,모든 것)’라는 접두사에서 따오기도 했다. 오픈AI는 “GPT-4o는 딥러닝의 한계를 뛰어넘는 최신 단계로, 실용적인 사용성을 지향했다”고 했다.

◇수학 문제 척척 풀고, 감정 포착까지

13일 오픈AI가 진행한 온라인 신제품 공개 행사에서 미라 무라티 최고기술책임자(CTO) 및 오픈AI 직원들이 업데이트 된 'AI 음성 모드'로 수학 문제를 풀고 있느 모습./오픈AI

이날 오픈AI는 실시간으로 GPT-4o를 기반으로한 AI 음성 비서 기능을 시연하기도 했다. 챗GPT의 음성 대화 모드를 실행하고, “수학 문제를 풀건데, 정답을 말하지 말고 풀이 과정을 도와줘”라고 요청했다. 이후 카메라를 실행시켜 ‘3x+1=4′라는 수식을 비춰주자, AI는 바로 수식을 인식하고 “x의 값을 구하기 위해선 x를 제외한 모든 숫자를 한쪽으로 모이게 해야한다. 저 1을 어떻게 해야할까?”라고 풀이를 가이드하는 모습을 보였다. AI의 말투에선 기계음이 전혀 느껴지지 못할 정도로 자연스러웠고, 종종 감탄사와 장난스러운 농담을 섞기도 했다. 과거에 이런 대화를 하기 위해선 수식 사진을 찍어 업로드하고, 응답을 기다려야 했다. 하지만 이제는 카메라 화면으로 수식을 비추기만 해도 AI가 진짜 사람처럼 이를 인식하고 원하는 방식의 답을 제공한다는 것이다.

이날 시연된 AI는 다양한 목소리 변조, 실시간 통번역을 포함해 사람의 끼어들기까지 이해하는 모습을 보였다. 예컨대 사용자의 “로봇과 관련된 잠자리 동화를 읊어줘”라는 요청에 즉시 동화를 만들어내던 중 “아니, 좀 더 극적인 말투로 해줘”라고 요청하자 바로 성우처럼 감정을 추가한 말투로 동화를 구술하는 식이었다. 이용자가 웃고 있는 자신의 얼굴을 비추며 “내가 지금 어때보여”라고 묻자, 곧바로 “기쁘고 신난 것 같다”고 대답하기도 했다. 오픈AI는 이날 웹사이트에 AI끼리 서로 대화를 주고 받는 데모 영상을 공개하기도 했다. 한 AI가 ‘무엇이 보이냐’고 묻자 다른 AI가 주변을 인식해 “검은 가죽 자켓을 입은 남성이 앉아있다”고 대답해주는 식이었다.

AI비서와 사랑에 빠진 남성의 이야기를 다룬 영화 '허(HER)'./오픈AI

테크 업계에서 오픈AI의 GPT-4o에 주목하는 이유는 이처럼 빠르게 세상을 인지하고 응답하는 AI는 셀 수 없는 다양한 서비스를 파생시킬 것으로 보고 있기 때문이다. 테크 업계 관계자는 “당장 아이들의 숙제를 도와주는데 부모나 가정교사가 필요없어졌다”며 “AI가 누구보다도 훌륭한 친구, 비서, 선생님이 되는 시대가 현실화된 것으로, 앞으로는 영화 ‘허(HER)’에서 나온 것 처럼 AI와 사랑에 빠지는 일도 가능해질 것”이라고 했다. 실제로 이날 샘 올트먼은 행사가 끝난 후 X에 ‘her’이라는 단어를 게시하기도 했다.

13일 샘 올트먼 오픈AI 최고경영자(CEO)가 신제품 공개 행사가 끝난 뒤 X에 'her'라는 글을 게시했다./오픈AI

◇구글 행사 하루 전에…뜨거운 AI경쟁

오픈AI에 따르면 GPT-4o는 총 50개의 언어로 출시된다. 글로벌 모든 이용자에게 무료로 공개되는 대신, 기존 유료 회원들은 무료 회원보다 한 번에 입력할 수 있는 메시지의 양이 5배 많다. GPT-4o는 오늘부터 사용이 가능하며, 이날 오픈AI가 시연한 ‘AI음성 모드’는 몇 주 안에 공개될 예정이라고 밝혔다.

한편 구글은 오는 14일 연례 최대 개발자 콘퍼런스인 ‘I/O’를 캘리포니아 마운틴뷰에서 개최하고, AI모델인 ‘제미나이’의 업데이트 및 신규 AI서비스를 공개할 예정이다. 테크 업계 관계자는 “구글 또한 이미지·음성·텍스트를 아우르는 신규 AI서비스와 관련된 업데이트를 진행할 것으로 예상되는 가운데, 양사간 경쟁은 더욱 치열해질 것”이라고 말했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?