“극적으로 동화 읊어줘” 하니 성우 말투로 줄줄... 新인류 AI

실리콘밸리-오로라 특파원 2024. 5. 14. 21:11
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

오픈AI, 진화한 GPT-4o 공개
수학 문제 비추면 “이렇게 풀어”

“이건 단순한 운영체제(OS)가 아니야. 의식(Consciousness)이지.”

2013년 개봉한 스파이크 존즈 감독의 공상과학(SF) 영화 ‘허(HER)’에서 남자 주인공 ‘테오도르’는 자신이 인공지능(AI) 비서 ‘사만사’를 사랑하게 된 이유를 이렇게 설명한다. 자신과 같은 것을 보고, 실시간으로 함께 웃고 떠드는 AI는 그 자체로 자아를 갖춘 ‘의식체’이며, 사랑하지 않을 이유가 없다는 것이다. 영화는 인기를 얻었지만, 개봉 당시만 해도 이토록 인간다운 AI가 나오기까진 아주 오랜 시간이 걸릴 것이라는 평가들이 나왔었다.

하지만 불과 11년 만에 ‘사만사’는 현실이 됐다. 13일 미국의 오픈AI는 온라인 신제품 공개 행사 ‘봄(春) 업데이트’에서 신규 AI 모델 ‘GPT-4o(포오)’를 공개했다. ‘o’는 Omni의 약자로 ‘모든 것’을 뜻한다. 이 AI 모델을 기반으로 오픈AI는 실시간으로 세상을 보고, 듣고, 말할 수 있는 음성 AI 서비스를 선보였다. 이용자와 자유롭게 대화를 나누는 동시에 카메라를 눈 삼아 세상을 관찰한다.

사용자와 대화에서 GPT-4o의 평균 응답 속도는 0.32초. 인간의 평균 반응 속도인 0.25초와 큰 차이가 없다. 그동안 AI는 사용자의 말을 인식하고, 그에 맞는 해답을 찾아 대답하는 데 시간이 1초 안팎 걸렸다. 하지만 기존 AI 모델보다 2~4배 빠른 GPT-4o의 빠른 응답 속도 때문에 사람과 이야기를 주고받듯 자연스러운 대화가 가능해진 것이다.

더구나 카메라를 통해 주변의 시각적 정보를 실시간 인식하고 분석하며 말할 수 있다. 사용자가 웃는 얼굴을 비추면 ‘즐겁고 신나보이네’라고 말하고, 등 뒤로 갑자기 사람이 나타났다 사라지면 ‘아까 네 뒤로 모르는 사람이 지나가더라’라고 언급하는 식이다. 이날 신제품 공개 후 샘 올트먼 오픈AI 최고경영자(CEO)는 자신의 X(옛 트위터)에 영화 ‘허’를 언급하며 “새로운 음성과 영상 모드는 지금까지 사용해본 최고의 컴퓨터 인터페이스(사용자 환경)”라며 “영화에 나오는 AI 같은 느낌”이라고 했다. 김정호 KAIST 교수는 “응답 생성 속도는 AI 서비스 경쟁의 핵심”이라며 “속도와 성능에서 획기적 발전을 이룬 GPT-4o의 등장으로 인간과 같은 AI의 등장은 점점 가까워지고 있다”고 말했다.

13일(현지 시각) 챗GPT 개발사 오픈AI가 새로운 인공지능(AI) 모델인 'GPT-4o'(GPT-포오)를 공개했다./오픈AI 유튜브 갈무리

“지난 수년간 우리는 인공지능(AI) 모델의 지능을 향상시키는 데 중점을 뒀고 성과를 냈다. 하지만 이번처럼 사용 편의성 측면에서 큰 진전을 이룬 것은 처음이다.”

13일 온라인 신제품 공개 행사에 나타난 오픈AI의 미라 무라티 최고기술책임자(CTO)는 “더 빠르고 똑똑한 플래그십(대표) AI 모델 ‘GPT-4o’를 공개한다”며 이렇게 말했다. 2022년 11월 생성형 AI 모델인 챗GPT를 선보인 오픈AI는 지난해 3월 ‘GPT-4′, 11월 ‘GPT-4 터보’를 선보이며 AI 기술 혁명을 이끌어 왔다. 그리고 7개월 만에 또다시 신모델을 선보이며 무라티 CTO는 “GPT-4o는 GPT-4 수준의 지능을 더 빠르게 제공하는 데 초점을 맞췄고, 문자·시각·청각 데이터를 넘나드는 능력을 더 강화했다”고 설명했다. AI를 더 인간답게 만들었다는 것이다.

그래픽=김현국

◇수학 문제 척척 풀고, 감정 포착까지

이날 오픈AI는 GPT-4o를 기반에 둔 신규 음성 AI 서비스를 실시간 시연했다. 모바일 챗GPT 앱에서 음성 대화 모드를 실행하고, “수학 문제를 풀 건데, 정답을 말하지 말고 풀이 과정을 도와줘”라고 요청했다. 이후 카메라를 실행시켜 종이에 적은 ‘3x+1=4′라는 방정식을 비추자, AI는 바로 문제를 인식하고 “x의 값을 구하기 위해선 x를 제외한 모든 숫자를 한쪽으로 모아야 한다”며 풀이법을 말했다. 이날 온라인으로 진행된 시연 장면을 보면, 여성의 목소리를 한 AI의 말투에서 불편한 기계음이 전혀 느껴지지 않았다. 때로는 감탄사와 농담도 자유자재로 섞었다.

그래픽=김현국

GPT-4o 이전에도 챗GPT를 활용한 수학 풀이는 가능했다. 다만 과거에는 수학 문제를 카메라로 찍어 채팅창에 사진을 올리면, AI가 풀이를 문자로 설명해주는 식이었다. 풀이 과정과 정답을 한 번에 보여줘, 학습용으로 부적합한 점도 있었다. GPT-4o는 마치 과외 교사처럼 바로 옆에서 실시간으로 대화를 나누며 풀이 과정을 지도해 준다.

이날 시연에선 이탈리아어·영어의 실시간 통번역, 동화를 다양한 말투로 읽어주거나 노래 불러주기 등의 기능도 보여줬다. “동화를 좀 더 극적인 말투로 읽어줘”라고 요청하자, 바로 성우처럼 감정을 넣은 말투로 동화를 구술했다.

대화 중 다른 사람이 끼어들어 말을 해도, 곧바로 알아듣고 지체없이 추가 요청을 수행했다. 샘 올트먼 오픈AI 최고경영자(CEO)는 이날 자신의 블로그에서 “컴퓨터와 대화하는 것은 나에게 결코 자연스러웠던 적이 없지만, 이제는 다르다”며 “앞으론 컴퓨터를 사용해 훨씬 다양한 작업을 수행할 수 있는 흥미로운 미래가 실현될 것”이라고 했다.

◇구글 행사 하루 전 기습 공개

전문가들은 GPT-4o는 응답 속도를 높이기 위해 매개변수(parameter) 100억~1000억개 단위의 ‘중간급 AI’로 설계됐을 것으로 보고 있다. GPT-4의 매개변수는 1조개가 넘는다. 매개변수가 많으면 성능은 좋아지지만, 구동에 시간이 걸린다. GPT-4o는 엔비디아가 아직 공식 출시하지 않은 최신 AI 반도체 ‘블랙웰’을 활용해 성능은 유지하면서 반응 속도를 높였을 것으로 추측하고 있다.

오픈AI는 GPT-4o를 이날부터 글로벌 모든 이용자에게 무료로 제공한다. 다만 기존 유료 회원들은 무료 회원보다 한 번에 입력할 수 있는 메시지의 양이 5배 많다. 다만 이날 오픈AI가 시연한 ‘음성 AI’ 서비스는 몇 주 안에 일반에 공개될 예정이다.

인간에 가까운 ‘음성 AI’를 두고 빅테크의 경쟁은 치열해질 전망이다. 이날 오픈AI의 발표는 구글의 연례 최대 개발자 콘퍼런스 ‘I/O’를 하루 앞두고 나왔다. 구글 역시 자사 AI 모델 ‘제미나이’의 업데이트 및 이미지·음성·텍스트를 아우르는 신규 AI 서비스를 내놓을 것으로 예측되고 있다. IT 매체 디인포메이션은 “오픈AI가 구글에 쏟아지는 관심을 빼앗는 데 성공했고, (이날 시연한 음성 AI는) 수년 전부터 음성 AI를 운영해온 애플을 능가했다”고 평가했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?