사진과 목소리만 있으면 “이게 된다”…‘나의 아바타’ 만들어볼까

원호섭 기자(wonc@mk.co.kr) 2023. 11. 19. 00:45
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

싱가포르 난양공대 연구진이 인공지능(AI) 기술을 이용, 오디오 클립과 얼굴 사진만 있으면 대화하는 사람의 표정과 머리 움직임이 반영된 사실적인 영상을 만드는 프로그램을 개발했다.

쉬지안 루 난양공대 컴퓨터공학과 교수 연구진은 6000명 이상의 사람이 만든 100만 개 이상의 시청각 비디오 클립을 기반으로 현실적인 3D 기반의 영상을 제작하는 AI를 개발했다고 밝혔다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

싱가포르 난양공대 연구진
음성+사진=>영상 AI 개발
자연스런 움직임, 표정 구현
AI 비서, 헬스케어 산업 활용 기대
화면 왼쪽이 사진. 이 사진에 음성을 넣어주면, 오른쪽 영상처럼 음성을 말하는 3D 영상이 만들어진다. <사진=난양공대 유튜브 캡처>
싱가포르 난양공대 연구진이 인공지능(AI) 기술을 이용, 오디오 클립과 얼굴 사진만 있으면 대화하는 사람의 표정과 머리 움직임이 반영된 사실적인 영상을 만드는 프로그램을 개발했다. 기존 기술의 한계로 지목됐던 사람의 움직임과 감정 표현을 해결한 기술로 향후 다양한 분야에 활용될 것으로 기대된다.

쉬지안 루 난양공대 컴퓨터공학과 교수 연구진은 6000명 이상의 사람이 만든 100만 개 이상의 시청각 비디오 클립을 기반으로 현실적인 3D 기반의 영상을 제작하는 AI를 개발했다고 밝혔다. 연구 결과는 학술지 ‘패턴 인식’ 11월호에 게재됐다.

연구진의 성과는 간단하다. 예를 들어 “모두 새해 복 많이 받아(Happy New Year Everybody)”라는 음성 클립과 사람 얼굴 사진만 있으면 이를 결합, 사진 속에 있는 얼굴이 “모두 새해 복 많이 받아”라는 말을 자연스럽게 하는 영상을 만들어 준다. 이전 기술과 달라진 점을 꼽자면 오디오 클립이 의미하는 특징을 파악해 자연스럽게 고개를 움직이면서 얼굴에 드러나는 감정까지 조절할 수 있다는 점이다. 앞서 언급한 “새해 복 많이 받아”라는 말은 일반적으로 좋은 감정의 표현인 만큼, 이를 재현한 영상 속 인물은 밝은 모습으로 이 말을 재생한다.

연구진은 이러한 기술이 현실적인 가상 비서, 챗봇을 가능케 하는 만큼 다양한 산업에 응용될 수 있을 것으로 기대하고 있다. 또한 언어 장애, 안면 장애가 있는 사람이 아바타를 이용해 자기 생각과 감정을 전달할 수 있도록 돕는 의사소통 기구로도 활용될 수 있다.

루 교수는 “오디오 녹음과 정적인 이미지만을 사용해 만들어진 영상은 정확한 입술 움직임, 생생한 표정, 자연스러운 머리 포즈로 완성된다”라며 “개인이 말하는 매우 사실적인 비디오를 만드는 것을 가능케 함으로써 우리의 연구가 미칠 영향은 상당히 크다”라고 말했다.

참고문헌 DOI: 10.1016/j.patcog.2023.109865

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지