사진과 목소리만 있으면 “이게 된다”…‘나의 아바타’ 만들어볼까

싱가포르 난양공대 연구진
음성+사진=>영상 AI 개발
자연스런 움직임, 표정 구현
AI 비서, 헬스케어 산업 활용 기대

화면 왼쪽이 사진. 이 사진에 음성을 넣어주면, 오른쪽 영상처럼 음성을 말하는 3D 영상이 만들어진다. <사진=난양공대 유튜브 캡처>

싱가포르 난양공대 연구진이 인공지능(AI) 기술을 이용, 오디오 클립과 얼굴 사진만 있으면 대화하는 사람의 표정과 머리 움직임이 반영된 사실적인 영상을 만드는 프로그램을 개발했다. 기존 기술의 한계로 지목됐던 사람의 움직임과 감정 표현을 해결한 기술로 향후 다양한 분야에 활용될 것으로 기대된다.

쉬지안 루 난양공대 컴퓨터공학과 교수 연구진은 6000명 이상의 사람이 만든 100만 개 이상의 시청각 비디오 클립을 기반으로 현실적인 3D 기반의 영상을 제작하는 AI를 개발했다고 밝혔다. 연구 결과는 학술지 ‘패턴 인식’ 11월호에 게재됐다.

연구진의 성과는 간단하다. 예를 들어 “모두 새해 복 많이 받아(Happy New Year Everybody)”라는 음성 클립과 사람 얼굴 사진만 있으면 이를 결합, 사진 속에 있는 얼굴이 “모두 새해 복 많이 받아”라는 말을 자연스럽게 하는 영상을 만들어 준다. 이전 기술과 달라진 점을 꼽자면 오디오 클립이 의미하는 특징을 파악해 자연스럽게 고개를 움직이면서 얼굴에 드러나는 감정까지 조절할 수 있다는 점이다. 앞서 언급한 “새해 복 많이 받아”라는 말은 일반적으로 좋은 감정의 표현인 만큼, 이를 재현한 영상 속 인물은 밝은 모습으로 이 말을 재생한다.

연구진은 이러한 기술이 현실적인 가상 비서, 챗봇을 가능케 하는 만큼 다양한 산업에 응용될 수 있을 것으로 기대하고 있다. 또한 언어 장애, 안면 장애가 있는 사람이 아바타를 이용해 자기 생각과 감정을 전달할 수 있도록 돕는 의사소통 기구로도 활용될 수 있다.

루 교수는 “오디오 녹음과 정적인 이미지만을 사용해 만들어진 영상은 정확한 입술 움직임, 생생한 표정, 자연스러운 머리 포즈로 완성된다”라며 “개인이 말하는 매우 사실적인 비디오를 만드는 것을 가능케 함으로써 우리의 연구가 미칠 영향은 상당히 크다”라고 말했다.

참고문헌 DOI: 10.1016/j.patcog.2023.109865

매일경제

IT/과학

사진과 목소리만 있으면 “이게 된다”…‘나의 아바타’ 만들어볼까