목소리 얻은 챗GPT…표정 읽고, 수학 가르쳐주고, 농담도 주고받는다

오픈AI, 새로운 챗GPT-4o 유튜브에서 시연

“행복하고 흥분한 표정이군요. 좋은 일이 있나 보네요.”

“주목하세요. 한쪽편에 엑스가 남고, 3x=3이 되었네요. 곱셈의 반대가 뭔지 생각해보세요.”

챗GPT가 사람의 얼굴 표정을 읽고, 수학을 가르쳐주고, 숨소리까지 살펴준다. 새로운 챗GPT는 몇 주 내에 사용할 수 있다.

오픈AI는 13일(현지시간) 대규모 언어모델의 대화형 인공지능(AI) 챗GPT의 보고 듣고 말하는 새로운 버전을 공개했다. 여성의 목소리로 말을 하는 ‘챗GPT-4o(포오)’는 스마트폰 카메라를 통해 사람의 표정과 숨소리까지 관찰하는가 하면, 과외 교사처럼 수학 문제를 푸는 과정을 상세하게 가르쳐주며, 노트북 화면을 함께 보면서 작업을 도와준다. 사람과 농담을 주고받는 과정까지 마치 실제 대화를 하듯 자연스럽게 이어졌다. 음성 인식과 처리 속도가 5배 빨라졌다고 오픈AI는 밝혔다.

미라 무라티 오픈AI 최고기술책임자(CTO)는 유튜브 라이브로 ‘GPT-4o’라는 이름의 새 AI 모델을 공개하고 시연을 선보였다. ‘o’는 모든 것이라는 옴니(omni)를 뜻한다.

스마트폰에 뜬 챗GPT-4o의 모습은 하얗게 빈 화면에 검은 동그라미였다. 목소리를 내거나 들을 때마다 동그라미가 움직였다. 사용자가 헐떡이는 숨소리를 들려주자 “아주 천천히 하세요(Wold slow down). 당신은 진공청소기가 아니에요(Mark, you are not a vacuum cleaner)”라고 충고했다. 챗GPT의 응답은 즉각적이었고, 사용자가 말을 끊고 질문을 던져도 즉시 말을 건넸다. 오픈AI는 “모델이 응답할 때까지 기다리는 2~3초의 어색한 지연이 없다”고 설명했다. GPT-4o의 응답 시간은 최소 232밀리초, 평균 320밀리초라고 한다. 인간의 응답 시간과 비슷한 수준이다.

스마트폰 카메라를 켜고 얼굴을 보여주자 챗GPT는 “행복해 보인다”고 말했다. 카메라 화면을 바로 분석하고, 사람의 표정까지 판별하는 능력이다. 종이에 ‘3x+1=4’라는 숫자를 손을 써서 카메라로 비춰주며 “문제 푸는 과정을 한 단계씩 가르쳐 달라”고 요청하자 한쪽 변에 x만 남기도록 하나하나 설명해줬다. 이 과정에서 손글씨로 적힌 수식의 의미를 정확하게 이해했다.

아이들을 위한 이야기를 만들어 음성으로 들려 달라고 명령하자 부드러운 목소리로 말을 시작했다. 목소리를 더 드라마틱하게 해 달라, 로봇처럼 기계음 느낌으로 해 달라는 요청에 즉시 목소리 톤을 바꾸기도 했다. 코딩 중인 노트북 화면을 공유하자 코딩의 내용을 분석해 설명했고, 그래프를 보고 섭씨와 화씨를 구별해 분석했다. 통역을 해 달라는 요청에는 이탈리아어와 영어로 대화를 주고받았다.

오픈AI는 GPT-4o가 기존 GPT-4 터보보다 두 배 빠르고 비용은 절반 수준이라고 밝혔다. 한국어를 포함한 50개 언어로 사용이 가능하며, 개발자들이 새 모델을 사용해 애플리케이션을 제작하는 API(응용 프로그램 인터페이스)도 공개했다. 유료 구독자는 무료 사용자보다 5배 많은 질문을 할 수 있다.

미라 무라티는 “일부 잘못된 추론(mysticism)을 제거한 뒤 몇 주 뒤 모든 사람이 사용할 수 있도록 하겠다”면서 “오늘은 무료 사용자와 새로운 양식, 새로운 제품에 초점을 맞췄지만 새로운 영역을 개척하고 더 큰 것을 계속 업데이트하겠다”고 밝혔다.

김지방 기자 fattykim@kmib.co.kr

국민일보

국제

목소리 얻은 챗GPT…표정 읽고, 수학 가르쳐주고, 농담도 주고받는다