인물 사진만 찍으면 '말하는 영상'이 나온다

유효정 중국 전문기자 2024. 3. 4. 08:27
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

중국에서 인물의 사진만 있으면 말하는 영상을 얻을 수 있는 인공지능(AI) 기술이 공개됐다.

3일 중국 알리바바그룹의 연구진이 '립싱크'에 사용할 수 있는 EMO(Emote Portrait Alive) 프레임워크를 발표했다.

연구진은 이 AI 프레임워크를 얻기 위한 훈련에 250시간 이상의 전문 영상을 사용했다고 설명했다.

연구진은 EMO 프레임워크에서 생성된 몇 편의 데모 영상을 공개했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

中 알리바바, EMO 프레임워크 발표…'립싱크'에 사용 가능

(지디넷코리아=유효정 중국 전문기자)중국에서 인물의 사진만 있으면 말하는 영상을 얻을 수 있는 인공지능(AI) 기술이 공개됐다.

3일 중국 알리바바그룹의 연구진이 '립싱크'에 사용할 수 있는 EMO(Emote Portrait Alive) 프레임워크를 발표했다. 인물 사진과 오디오만 입력하면 사진 속 인물이 중국어, 영어, 한국어 등을 말하는 영상을 구현할 수 있다.

EMO는 엔비디아의 오디오2비디오(Audio2Video) 확산 모델을 기반으로 만들어졌다. 연구진은 이 AI 프레임워크를 얻기 위한 훈련에 250시간 이상의 전문 영상을 사용했다고 설명했다.

연구진은 EMO 프레임워크에서 생성된 몇 편의 데모 영상을 공개했다.

EMO 프레임워크 논문 (사진=알리바바그룹)

보고서에 따르면 이 프레임워크의 작동 과정은 두 단계로 나뉜다. 먼저 참조 네트워크(ReferenceNet)를 사용해 참조 이미지와 동작 프레임에서 특징을 추출한 이후, 사전 훈련된 오디오 인코더를 사용해 사운드를 처리하고 삽입한다. 이후 다중 프레임 노이즈와 얼굴 영역 마스크를 결합해 영상을 생성한다. 

이 프레임워크에는 두 가지의 어텐션메커니즘(Attention Mechanism)과 시간 모듈이 결합돼 있어 영상에서 캐릭터 정체성의 일관성과 자연스러운 동작을 보장한다.

연구진은 모델의 작동 원리를 아시브(ArXiv)에 게시했다. 관심이 있는 사람은 깃허브에 방문해 프로젝트를 확인할 수 있다. 아시브는 출판되기 전 논문이 저장되는 무료 웹사이트다.

유효정 중국 전문기자(hjyoo@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?