내 목소리 그대로 한국어→영어 번역·더빙…마법같은 일, 벌써 현실로

이종격투기 선수 프랑시스 응가누 아바타와 영어로 대화하는 화면. 소울머신스

오픈AI의 챗GPT가 30일로 출시 1주년을 맞은 가운데 AI 기술방향이 단순한 텍스트를 넘어 음성, 이미지, 영상 등 다양한 형태의 데이터를 처리하는 멀티모달(Multi-Modal)로 진화하고 있다.

세계적인 이종격투기 선수 프란시스 은가누가 나의 영어회화 교사가 된다면 어떨까? 챗GPT로 대표되는 거대언어모델(LLM)이 텍스트를 넘어 음성과 이미지까지 자유자재로 다루게 되면서 충분히 가능해진 일이다.

디지털 휴먼을 만드는 실리콘밸리 스타트업 소울머신스는 지난 달 프란시스 은가누 아바타를 공개했다. 은가누의 실제 모습을 실사에 가까운 아바타를 만들고 은가누에 대한 정보와 말투를 챗GPT 가 학습하도록 했다. 인공지능(AI)로 은가누의 목소리도 학습시켰다.

기자가 은가누 아바타에 ‘스스로에 대해서 설명해봐(Tell me about yourself)’라고 영어로 물어보자 아바타가 영어로 자신에 대해서 설명을 시작했다. 은가누와 실제로 대화하는 것처럼 눈을 깜빡이고 입술을 움직이기 때문에 대화에 몰입감이 높아졌다.

이는 챗GPT가 음성을 텍스트로 이해하고, 생성한 텍스트를 다시 음성으로 만들 수 있기 때문에 가능해진 일이다. 이미 인터넷에서는 챗GPT로 영어회화를 학습하는 방법이 광범위하게 공유되고 있다. 기존에는 비싼 수업료를 지불해야했던 원어민 전화영어 및 화상영어 수업이 AI 로 대체될 것으로 보인다.

멀티모달 LLM은 기존 텍스트 중심 AI 보다 훨씬 많은 영역에서 인간의 업무를 대체할 수 있다.

특히 언어능력이 중요한 통번역, 언어교육, 고객대면업무 등 서비스직이 멀티모달 AI 에 의해 위협받을 수 있는 일자리다. 텍스트 중심 AI가 챗봇으로 고객과 대화하는데 그쳤다면 멀티모달이 적용된 AI 는 전화통화나 화상상담까지 업무를 넓힐 수 있다.

AI로 영상을 만드는 서비스를 제공하는 실리콘밸리의 스타트업 ‘헤이젠’은 최근 ‘동영상 번역’ 서비스를 공개했다. 동영상 속 화자의 말을 다른 언어로 변환해주는 서비스다. 기자가 유튜브 방송용으로 찍은 짧은 동영상 파일을 번역기에 집어 넣자 약 5분만에 번역된 영상이 만들어졌다. 기자가 한국어로 말한 내용이 영어로 번역됐다. 놀라운 점은 기자의 목소리 그대로 영어를 말하게 된 것이다. 영어에 맞춰 동영상 속 입모양도 움직이기 때문에 번역된 영상이라고는 전혀 상상할 수 없다. 기자가 처음부터 영어로 말한 것처럼 느껴지는 것이다. 동영상 번역 서비스는 28개 언어로 번역이 가능하다.

헤이젠의 동영상 번역 서비스는 기존에 통역사가 하던 업무의 상당부분을 대체할 수 있을 것으로 보인다. 특히 자신의 모국어 외 다른 언어 사용자들에게도 통하는 콘텐츠를 만들고자 하는 크리에이터에게 각광을 받고 있다. 자신의 목소리를 유지하면서도 더빙을 한 것처럼 콘텐츠를 바꿀 수 있기 때문이다.

헤이젠의 이런 능력도 AI 가 멀티모달 능력을 갖고 있기 때문에 가능한 일이다. 영상속 음성을 인식해 다른 나라의 언어로 번역하고, 번역한 언어를 학습한 목소리 톤으로 음성화 시키는 작업이 이뤄진 것이다. 또한, 이미지를 인식해 음성에 맞춰 입모양도 자동으로 변환하는 작업도 거쳤다.

이처럼 언어를 기반으로 하는 서비스직은 LLM 의 성능이 향상되면서 가장 큰 도전과 기회에 직면하고 있다.

글로벌 통번역 기업 위로컬라이즈의 폴 카 CEO 는 포브스 기고를 통해서 “번역 산업은 기업과 정부가 연간 약 600억 달러를 지출하는 매우 큰 규모의 산업이지만 전체 생산되는 콘텐츠 중 일부만이 유료로 번역을 거친다”고 설명했다. 그는 “생성형AI 로 여러 언어로 번역되는 콘텐츠가 늘어나면 전문가의 검수가 필요한 부분도 늘어날 것”이라고 통번역가들이 기회를 찾아야한다고 설명했다.

생성형AI 시장이 멀티모달로 빠르게 진화하면서 국내 기업들도 이를 따라잡기에 바쁘다.

네이버는 현재 텍스트 중심인 생성형 AI 검색서비스 ‘큐:’에 멀티모달 기술을 추가 적용해 단계적으로 서비스를 확장할 계획을 갖고 있다. 검색창에 텍스트를 입력하는 것 외에도 이미지나 음성을 추가하면 반복적인 검색 과정을 거치지 않더라도 종전 보다 더 빠르게 원하는 결과값을 얻을 수 있게 된다. 예를들어 집안 거실 모습이 담긴 이미지를 큐:에 올리고 적합한 인테리어 소품을 추천해달라고 텍스트 검색창에 입력하면 그에 맞는 쇼핑 품목 정보가 도출되는 식이다.

LG의 AI 아티스트 ‘틸다’도 언어와 이미지를 모두 이해하는 멀티 엔진를 탑재하고 있다. 틸다는 LG AI연구원이 개발한 초거대 멀티모달 AI ‘엑사원’이 기반이 됐는데, 텍스트를 이미지로 그려내는 것에서 더 나아가 이미지를 보고 텍스트를 설명할 수 있는 ‘양방향 소통’이 가능하다.

국내 대기업 뿐만 아니라 스타트업도 멀티모달 생성형 AI 구축에 집중하고 있다. 엔비디아, 인텔, 삼성 등으로부터 잇따라 전략적 투자를 받은 한국 스타트업 트웰브랩스는 영상을 이해하는 초거대 AI 개발 기업이다. 최근 이 회사가 공개한 영상언어모델 ’페가수스-1‘은 영상을 요약하고 영상 기반의 질의응답이 가능하는 등 비디오에 특화된 멀티모달 능력을 갖고 있다.

멀티모달 AI 산업은 아직 태동기다.

글로벌 분석 업체인 마켓앤마켓에 따르면, 멀티모달 AI 시장은 올해 10억달러에 불과하다. 하지만 5년 뒤인 2028년 45억달러까지 성장할 전망이다. 매년 35%씩 성장할 것으로 보인다. 마켓앤마켓은 “갈수록 정제되지 않은 비정형 데이터를 처리하려는 수요가 늘어나고 있는데다, 생성AI 기술이 발전하면서 생태계가 커지고 있다”면서 “멀티모달 AI는 텍스트, 이미지, 동영상과 같은 새로운 콘텐츠를 생성하는 AI 세계의 창조적 발전소와 같다”고 말했다.

이처럼 AI는 일자리 판을 흔들고 있다. 세계경제포럼(WEF)이 올해 4월 발간한 보고서에 따르면, AI로 인해 은행직원 우편배달부 계산원 데이터입력사원 등은 위태로워지는데 반해 AI 머신러닝전문가 지속가능성전문가 보안전문가 핀테크엔지니어 등 일자리는 늘어날 전망이다. 미국의 인사관리 컨설팅회사인 챌린저, 그레이 앤드 크리스마스(CG&C)에 따르면, 미국에서는 사라지는 일자리 중 약 5%는 AI로 인한 것으로 나타나고 있다. 글쓰기, 이미지 제작과 같은 직종에서 AI 활용이 활발하기 때문이다.

딜로이트 글로벌은 이날 ‘2024 예측 보고서’를 발간하고 “생성형 AI가 이제는 유행어에서 비즈니스 자산으로 도약하고 있다”고 강조했다. 또 “일각에선 기업의 활용 사례가 미흡해 생성형 AI 기술을 회의적으로 보는 시선이 존재하고 있지만, 우리가 예측한 기업용 소프트웨어 업체들 대부분은 내년을 기점으로 제품과 서비스에 생성형 AI를 포함할 것으로 나타났다”면서 “또한 생성형 AI를 적용해 기업용 소프트웨어 업체가 얻을 수 있는 추가 매출은 약 미화 100억 달러로 추산되고 있다”고 강조했다. 특히 딜로이트는 2024년 기업의 생성형 AI에 대한 투자는 기존 대비 약 30%가 증가할 것이며 자체 모델을 개발하는 기업들도 늘어날 것으로 전망했다.

용어설명 : 멀티모달(multimodal) AI

텍스트를 넘어 음성 이미지 영상 등 다양한 형태의 데이터를 처리하고 생성할 수 있는 AI.

이 기사에 대해 어떻게 생각하시나요?

매일경제에서 직접 확인하세요. 해당 언론사로 이동합니다.