영화 '그녀'처럼, 챗GPT와 자연스러운 대화... 한국어로도 가능해진다

이서희 2024. 9. 25. 03:15
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

미국 기업 오픈AI가 25일(현지시간)부터 생성형 인공지능(AI) 챗봇 챗GPT에 고급 음성 모드(Advanced Voice Mode)를 도입한다.

현재는 음성 응답 시 최대 5.4초의 지연이 있는 반면, 고급 음성 모드의 챗GPT는 평균 320밀리초(1밀리초=1,000분의 1초) 내에 반응한다는 게 오픈AI의 설명이다.

실제로 이날 오픈AI가 기자들에게 선보인 시연에서 고급 음성 모드 상태 챗GPT는 훨씬 빠르고 자연스럽게 반응하는 모습을 보였다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

오픈AI, 챗GPT 고급 음성 모드 출시
더 빠르고 자연스럽게 목소리 반응
AI 업계 음성 비서 진화 경쟁 본격화
2013년 한국에서 개봉한 영화 '그녀(Her)'의 한 장면. 남자 주인공이 인공지능 '서맨사'와 대화하고 있다. 워너브라더스 제공

미국 기업 오픈AI가 25일(현지시간)부터 생성형 인공지능(AI) 챗봇 챗GPT에 고급 음성 모드(Advanced Voice Mode)를 도입한다. 사람처럼 거의 지연 없이, 자연스러운 어조로, 감정까지 표현하며 반응해 영화 '그녀(Her)'의 현실판이라는 평가를 받았던 기능이다. 사람에 가까운 목소리를 내는 챗GPT는 AI와의 상호작용 몰입감을 크게 끌어올릴 것으로 전망된다. AI 비서가 진짜 비서에 더욱 가까워질 것이라는 얘기다.

2022년 말 챗GPT 등장 후 최근까지 AI 업계의 경쟁은 AI 성능 자체를 진화하는 데 집중돼 있었다. 그러나 음성 모드의 경우, 대답이 느리고 정교하지 못해 여전히 기계라는 인상을 줬다. 앞으로의 싸움은 '누가 진짜 사람처럼, 더 자연스럽게 말하는 AI를 만드느냐'가 될 것이라는 분석이 나온다. 생성형 AI 경쟁의 2라운드가 시작된 것이다.

챗GPT에서 고급 음성 모드를 작동시켰을 때의 휴대폰 화면. 오픈AI 제공

"애교 넣어줘" 주문하자 바로 혀 짧은 소리

오픈AI는 챗GPT 유료 이용자를 대상으로 25일부터 고급 음성 모드 서비스를 시작한다고 23일 발표했다. 챗GPT는 지금도 음성 대화가 가능하지만, 고급 음성 모드가 장착되면 "더 자연스러운 실시간 대화를 할 수 있고, 감정과 비언어적 신호(한숨, 비명 등)도 파악하고 반응할 수 있다"고 회사 측은 밝혔다. 현재는 음성 응답 시 최대 5.4초의 지연이 있는 반면, 고급 음성 모드의 챗GPT는 평균 320밀리초(1밀리초=1,000분의 1초) 내에 반응한다는 게 오픈AI의 설명이다. 음성은 총 9개가 제공된다. 영화 '그녀'에서 AI 목소리를 연기한 배우 스칼릿 조핸슨이 "내 목소리를 모방했다"고 주장해 논란이 됐던 목소리는 결국 지원 음성에서 제외됐다.

고급 음성 모드는 영어 등 50개 이상 언어에서 작동한다. 이에 따라 챗GPT의 한국어 구사력도 눈에 띄게 향상될 것으로 기대된다. 실제로 이날 오픈AI가 기자들에게 선보인 시연에서 고급 음성 모드 상태 챗GPT는 훨씬 빠르고 자연스럽게 반응하는 모습을 보였다. "자기소개를 해 줄래"라고 주문한 지 1초 만에 "저는 챗GPT라고 해요"라고 인사하며 소개를 이어갔다. 중간에 말을 끊고 "이제 애교를 좀 담아줘"라고 하자 곧바로 귀엽게 목소리를 전환했다. "갑자기 너무 혀가 짧아진 것 아냐? 더 정중하게 말하는 게 좋을 것 같아"라고 꼬집자, 챗GPT는 "제가 조금 과했나요"라고 되물은 뒤 차분한 어조로 다시 바꿨다.

샘 올트먼 오픈AI 최고경영자가 지난 5월 고급 음성 모드를 장착한 GPT-4o의 공개 후 자신의 엑스 계정에 'her'(그녀)라고 남겼다. 영화 '그녀'에서처럼 인공지능(AI)과 진짜 소통을 하는 시대가 시작됐음을 뜻한 것이라는 해석이 나왔다. 올트먼 엑스 캡처

"유해하거나 정치 관련 답변은 안 할 것"

고급 음성 모드는 원래 오픈AI가 올 상반기에 출시하려 했던 기능이다. 지난 5월 새 AI 모델 'GPT-4o(포오)'를 발표하며 이 모델 핵심 기능인 고급 음성 모드를 '몇 주 안에' 선보이겠다고 했었는데, 한 달 뒤 돌연 "시간이 더 필요하다"며 출시를 미뤘다. 그사이 불거진 조핸슨 목소리 모방 논란이 영향을 미쳤을 것이라는 해석이 나왔다.

오픈AI는 이후 안전성을 전면 재검토한 것으로 보인다. 한 관계자는 "29개 지역, 45개 언어를 구사하는 외부 인사들과 협력해 테스트했다"고 말했다. 오픈AI는 "고급 음성 모드는 유해하거나 정치적 견해가 담긴 답변, 저작권 침해 소지가 있는 말을 하지 않도록 설계됐으며, 제공된 9개 음성 외 다른 음성도 출력하지 않을 것"이라고 밝혔다. 음성 모방 가능성을 원천 차단하겠다는 취지다.

구글은 보다 복잡한 명령을 이해하는 인공지능 음성 비서 '제미나이 라이브'를 지난달 미국 등에 출시했다. 구글 제공

테크업계에서는 이날 오픈AI의 고급 음성 모드 출시를 계기로 음성 비서 고도화 경쟁이 불붙을 것으로 전망한다. 구글이 지난달 이용자의 복잡한 질문을 이해하고 반응하는 AI 음성 비서 '제미나이 라이브'를 선보인 데 이어, 메타와 아마존도 진화한 음성 비서 발표를 준비하고 있다. 애플도 다음 달 중 음성 비서 '시리'에 AI 기능을 적용할 예정이다.

실리콘밸리= 이서희 특파원 shlee@hankookilbo.com

Copyright © 한국일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?