내 목소리 그대로 한국어→영어 번역·더빙…마법같은 일, 벌써 현실로
세계적인 이종격투기 선수 프란시스 은가누가 나의 영어회화 교사가 된다면 어떨까? 챗GPT로 대표되는 거대언어모델(LLM)이 텍스트를 넘어 음성과 이미지까지 자유자재로 다루게 되면서 충분히 가능해진 일이다.
디지털 휴먼을 만드는 실리콘밸리 스타트업 소울머신스는 지난 달 프란시스 은가누 아바타를 공개했다. 은가누의 실제 모습을 실사에 가까운 아바타를 만들고 은가누에 대한 정보와 말투를 챗GPT 가 학습하도록 했다. 인공지능(AI)로 은가누의 목소리도 학습시켰다.
기자가 은가누 아바타에 ‘스스로에 대해서 설명해봐(Tell me about yourself)’라고 영어로 물어보자 아바타가 영어로 자신에 대해서 설명을 시작했다. 은가누와 실제로 대화하는 것처럼 눈을 깜빡이고 입술을 움직이기 때문에 대화에 몰입감이 높아졌다.
이는 챗GPT가 음성을 텍스트로 이해하고, 생성한 텍스트를 다시 음성으로 만들 수 있기 때문에 가능해진 일이다. 이미 인터넷에서는 챗GPT로 영어회화를 학습하는 방법이 광범위하게 공유되고 있다. 기존에는 비싼 수업료를 지불해야했던 원어민 전화영어 및 화상영어 수업이 AI 로 대체될 것으로 보인다.
멀티모달 LLM은 기존 텍스트 중심 AI 보다 훨씬 많은 영역에서 인간의 업무를 대체할 수 있다.
특히 언어능력이 중요한 통번역, 언어교육, 고객대면업무 등 서비스직이 멀티모달 AI 에 의해 위협받을 수 있는 일자리다. 텍스트 중심 AI가 챗봇으로 고객과 대화하는데 그쳤다면 멀티모달이 적용된 AI 는 전화통화나 화상상담까지 업무를 넓힐 수 있다.
헤이젠의 동영상 번역 서비스는 기존에 통역사가 하던 업무의 상당부분을 대체할 수 있을 것으로 보인다. 특히 자신의 모국어 외 다른 언어 사용자들에게도 통하는 콘텐츠를 만들고자 하는 크리에이터에게 각광을 받고 있다. 자신의 목소리를 유지하면서도 더빙을 한 것처럼 콘텐츠를 바꿀 수 있기 때문이다.
헤이젠의 이런 능력도 AI 가 멀티모달 능력을 갖고 있기 때문에 가능한 일이다. 영상속 음성을 인식해 다른 나라의 언어로 번역하고, 번역한 언어를 학습한 목소리 톤으로 음성화 시키는 작업이 이뤄진 것이다. 또한, 이미지를 인식해 음성에 맞춰 입모양도 자동으로 변환하는 작업도 거쳤다.
이처럼 언어를 기반으로 하는 서비스직은 LLM 의 성능이 향상되면서 가장 큰 도전과 기회에 직면하고 있다.
글로벌 통번역 기업 위로컬라이즈의 폴 카 CEO 는 포브스 기고를 통해서 “번역 산업은 기업과 정부가 연간 약 600억 달러를 지출하는 매우 큰 규모의 산업이지만 전체 생산되는 콘텐츠 중 일부만이 유료로 번역을 거친다”고 설명했다. 그는 “생성형AI 로 여러 언어로 번역되는 콘텐츠가 늘어나면 전문가의 검수가 필요한 부분도 늘어날 것”이라고 통번역가들이 기회를 찾아야한다고 설명했다.
생성형AI 시장이 멀티모달로 빠르게 진화하면서 국내 기업들도 이를 따라잡기에 바쁘다.
네이버는 현재 텍스트 중심인 생성형 AI 검색서비스 ‘큐:’에 멀티모달 기술을 추가 적용해 단계적으로 서비스를 확장할 계획을 갖고 있다. 검색창에 텍스트를 입력하는 것 외에도 이미지나 음성을 추가하면 반복적인 검색 과정을 거치지 않더라도 종전 보다 더 빠르게 원하는 결과값을 얻을 수 있게 된다. 예를들어 집안 거실 모습이 담긴 이미지를 큐:에 올리고 적합한 인테리어 소품을 추천해달라고 텍스트 검색창에 입력하면 그에 맞는 쇼핑 품목 정보가 도출되는 식이다.
LG의 AI 아티스트 ‘틸다’도 언어와 이미지를 모두 이해하는 멀티 엔진를 탑재하고 있다. 틸다는 LG AI연구원이 개발한 초거대 멀티모달 AI ‘엑사원’이 기반이 됐는데, 텍스트를 이미지로 그려내는 것에서 더 나아가 이미지를 보고 텍스트를 설명할 수 있는 ‘양방향 소통’이 가능하다.
국내 대기업 뿐만 아니라 스타트업도 멀티모달 생성형 AI 구축에 집중하고 있다. 엔비디아, 인텔, 삼성 등으로부터 잇따라 전략적 투자를 받은 한국 스타트업 트웰브랩스는 영상을 이해하는 초거대 AI 개발 기업이다. 최근 이 회사가 공개한 영상언어모델 ’페가수스-1‘은 영상을 요약하고 영상 기반의 질의응답이 가능하는 등 비디오에 특화된 멀티모달 능력을 갖고 있다.
멀티모달 AI 산업은 아직 태동기다.
글로벌 분석 업체인 마켓앤마켓에 따르면, 멀티모달 AI 시장은 올해 10억달러에 불과하다. 하지만 5년 뒤인 2028년 45억달러까지 성장할 전망이다. 매년 35%씩 성장할 것으로 보인다. 마켓앤마켓은 “갈수록 정제되지 않은 비정형 데이터를 처리하려는 수요가 늘어나고 있는데다, 생성AI 기술이 발전하면서 생태계가 커지고 있다”면서 “멀티모달 AI는 텍스트, 이미지, 동영상과 같은 새로운 콘텐츠를 생성하는 AI 세계의 창조적 발전소와 같다”고 말했다.
이처럼 AI는 일자리 판을 흔들고 있다. 세계경제포럼(WEF)이 올해 4월 발간한 보고서에 따르면, AI로 인해 은행직원 우편배달부 계산원 데이터입력사원 등은 위태로워지는데 반해 AI 머신러닝전문가 지속가능성전문가 보안전문가 핀테크엔지니어 등 일자리는 늘어날 전망이다. 미국의 인사관리 컨설팅회사인 챌린저, 그레이 앤드 크리스마스(CG&C)에 따르면, 미국에서는 사라지는 일자리 중 약 5%는 AI로 인한 것으로 나타나고 있다. 글쓰기, 이미지 제작과 같은 직종에서 AI 활용이 활발하기 때문이다.
딜로이트 글로벌은 이날 ‘2024 예측 보고서’를 발간하고 “생성형 AI가 이제는 유행어에서 비즈니스 자산으로 도약하고 있다”고 강조했다. 또 “일각에선 기업의 활용 사례가 미흡해 생성형 AI 기술을 회의적으로 보는 시선이 존재하고 있지만, 우리가 예측한 기업용 소프트웨어 업체들 대부분은 내년을 기점으로 제품과 서비스에 생성형 AI를 포함할 것으로 나타났다”면서 “또한 생성형 AI를 적용해 기업용 소프트웨어 업체가 얻을 수 있는 추가 매출은 약 미화 100억 달러로 추산되고 있다”고 강조했다. 특히 딜로이트는 2024년 기업의 생성형 AI에 대한 투자는 기존 대비 약 30%가 증가할 것이며 자체 모델을 개발하는 기업들도 늘어날 것으로 전망했다.
용어설명 : 멀티모달(multimodal) AI
텍스트를 넘어 음성 이미지 영상 등 다양한 형태의 데이터를 처리하고 생성할 수 있는 AI.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- 박빙이라더니 90표차 완패 “착잡·허무”…2035 재도전 추진 [부산 엑스포 유치 실패] - 매일경제
- “문화재 돌려달라” “그건 좀”…정상회담도 당일 전격취소 - 매일경제
- “동네 피자집 다 문 닫았는데”…백종원 나홀로 독주, 비결이 뭐길래 - 매일경제
- 우리 아파트가 경매로?…“전세사기도 아닌 무슨 날벼락” - 매일경제
- “목표주가 14만원”…구독서비스 시작한 이 종목 풀매수 [주식 초고수는 지금] - 매일경제
- "고객님 중고거래 안돼요"…막무가내 명품, 콧대 꺾였다 - 매일경제
- 올 겨울 ‘초특가 항공권’ 쏟아진다…가장 싼 항공권 찾는 팁은 - 매일경제
- 환갑넘은 노배우 여기선 막내…꽃할배 신구·박근형 총출동한 걸작공연 - 매일경제
- [단독] 11번가 강제매각 수순...SK스퀘어 콜옵션 행사 포기 - 매일경제
- 이정후, 오늘(28일) 미국 출국...MLB 20개 구단 관심 현실 될까 - MK스포츠