내 화상 영어쌤 알고보니 챗GPT… 전화상담·통번역도 '척척'

이덕주 특파원(mrdjlee@mk.co.kr), 이상덕 기자(asiris27@mk.co.kr), 고민서 기자(esms46@mk.co.kr) 2023. 11. 29. 17:18
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

멀티모달로 진화하는 AI
문자로 쓰는 챗봇과 달리
실제 사람과 말하듯 소통
아바타에 목소리 입히면
선택한 외국어로 바로 통역
내 음성·입 모양까지 일치
교육·서비스 등 일자리 대체
"멀티모달 매년 35% 성장"
네이버·LG 등도 속속 도입

오픈AI의 챗GPT가 30일로 출시 1주년을 맞은 가운데 인공지능(AI) 기술 방향이 단순한 텍스트를 넘어 음성, 이미지, 영상 등 다양한 형태의 데이터를 처리하는 멀티모달(Multi-Modal)로 진화하고 있다.

세계적인 이종격투기 선수 프랑시스 응가누가 나의 영어회화 교사가 된다면 어떨까? 챗GPT로 대표되는 거대언어모델(LLM)이 텍스트를 넘어 음성과 이미지까지 자유자재로 다루게 되면서 충분히 가능해진 일이다.

디지털 휴먼을 만드는 실리콘밸리 스타트업 솔머신스는 지난달 응가누 아바타를 공개했다. 응가누의 모습을 반영해 실사에 가까운 아바타를 만들고 응가누에 대한 정보와 말투를 챗GPT가 학습하도록 했다. AI로 응가누의 목소리도 학습시켰다.

기자가 응가누 아바타에 '스스로에 대해서 설명해봐(Tell me about yourself)'라고 물어보자 아바타가 영어로 자신에 대해서 설명을 시작했다. 응가누와 실제로 대화하는 것처럼 눈을 깜빡이고 입술을 움직이기 때문에 몰입감이 높아졌다.

이는 챗GPT가 음성을 텍스트로 이해하고, 생성한 텍스트를 다시 음성으로 만들 수 있기 때문에 가능해진 일이다. 이미 인터넷에서는 챗GPT로 영어회화를 학습하는 방법이 광범위하게 공유되고 있다. 기존에는 비싼 수업료를 지불해야 했던 원어민 전화영어 및 화상영어 수업이 AI로 대체될 것으로 보인다.

멀티모달 LLM은 기존 텍스트 중심 AI보다 훨씬 많은 영역에서 인간의 업무를 대체할 수 있다. 특히 언어능력이 중요한 통·번역, 언어교육, 고객대면업무 등 서비스직이 멀티모달 AI에 의해 위협받을 수 있는 일자리다. 텍스트 중심 AI가 챗봇으로 고객과 대화하는 데 그쳤다면 멀티모달이 적용된 AI는 전화통화나 화상상담까지 업무를 넓힐 수 있다.

AI로 영상을 만드는 서비스를 제공하는 실리콘밸리의 스타트업 '헤이젠'은 최근 '동영상 번역' 서비스를 공개했다. 동영상 속 화자의 말을 다른 언어로 변환해주는 서비스다. 기자가 유튜브 방송용으로 찍은 짧은 동영상 파일을 번역기에 집어넣자 약 5분 만에 번역된 영상이 만들어졌다. 기자가 한국어로 말한 내용이 영어로 번역됐다. 놀라운 점은 기자의 목소리 그대로 영어를 말하게 된 것이다. 영어에 맞춰 동영상 속 입 모양도 움직이기 때문에 번역된 영상이라고는 전혀 상상할 수 없었다. 기자가 처음부터 영어로 말한 것처럼 느껴지는 것이다. 동영상 번역 서비스는 28개 언어로 번역이 가능하다. 헤이젠의 동영상 번역 서비스는 기존에 통역사가 하던 업무의 상당 부분을 대체할 수 있을 것으로 보인다. 특히 자신의 모국어 외 다른 언어 사용자들에게도 통하는 콘텐츠를 만들고자 하는 크리에이터에게 각광을 받고 있다. 자신의 목소리를 유지하면서도 더빙을 한 것처럼 콘텐츠를 바꿀 수 있기 때문이다.

기자가 이종격투기 선수 프랑시스 응가누 아바타와 영어로 대화하는 화면. 솔머신스

헤이젠의 이런 능력도 AI가 멀티모달 능력을 갖고 있기 때문에 가능한 일이다. 영상 속 음성을 인식해 다른 나라의 언어로 번역하고, 번역한 언어를 학습한 목소리 톤으로 음성화하는 작업이 이뤄진 것이다. 또한 이미지를 인식해 음성에 맞춰 입 모양을 자동으로 변환하는 작업도 거쳤다. 이처럼 언어를 기반으로 하는 서비스직은 LLM의 성능이 향상되면서 가장 큰 도전과 기회에 직면하고 있다. 글로벌 통·번역 기업 위로컬라이즈의 폴 카 최고경영자(CEO)는 포브스 기고를 통해서 "번역 산업은 기업과 정부가 연간 약 600억달러를 지출하는 매우 큰 규모의 산업이지만 생산되는 전체 콘텐츠 중 일부만이 유료로 번역을 거친다"고 설명했다. 그는 "생성형 AI를 통해 여러 언어로 번역되는 콘텐츠가 늘어나면 전문가의 검수가 필요한 부분도 늘어날 것"이라며 통·번역가들이 기회를 찾아야 한다고 설명했다.

생성형 AI 시장이 멀티모달로 빠르게 진화하면서 국내 기업들도 이를 따라잡기에 바쁘다.

네이버는 현재 텍스트 중심인 생성형 AI 검색 서비스 '큐:'에 멀티모달 기술을 추가 적용해 단계적으로 서비스를 확장할 계획을 갖고 있다. 검색창에 텍스트를 입력하는 것 외에도 이미지나 음성을 추가하면 반복적인 검색 과정을 거치지 않더라도 종전보다 더 빠르게 원하는 결과 값을 얻을 수 있게 된다. LG의 AI 아티스트 '틸다'도 언어와 이미지를 모두 이해하는 멀티 엔진을 탑재하고 있다. 틸다는 LG AI연구원이 개발한 초거대 멀티모달 AI '엑사원'이 기반이 됐는데, 텍스트를 이미지로 그려내는 것에서 더 나아가 이미지를 보고 텍스트를 설명할 수 있는 '양방향 소통'이 가능하다.

멀티모달 AI 산업은 아직 태동기다. 글로벌 분석 업체인 마케츠앤드마케츠에 따르면, 멀티모달 AI 시장은 올해 10억달러 규모에 불과하다. 하지만 5년 뒤인 2028년 45억달러까지 성장할 전망으로, 매년 35%씩 성장할 것으로 보인다. 딜로이트 글로벌은 29일 '2024 예측 보고서'를 발간하고 "생성형 AI를 적용해 기업용 소프트웨어 업체가 얻을 수 있는 추가 매출은 약 100억달러로 추산되고 있다"고 강조했다.

멀티모달(multi-modal) AI

텍스트를 넘어 음성, 이미지, 영상 등 다양한 형태의 데이터를 처리하고 생성할 수 있는 AI.

[실리콘밸리 이덕주 특파원 / 서울 이상덕 기자 / 고민서 기자]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?